Microsoft MDASH: Ein Multi-Agenten-Schwarm für autonome Sicherheit

Zusammenfassung

Microsoft hat offiziell MDASH (Multi-model Agentic Scanning Harness) vorgestellt, ein bahnbrechendes Multi-Agenten-System für die autonome Suche nach Sicherheitslücken. Durch die Orchestrierung von über 100 spezialisierten KI-Agenten hat MDASH bereits 16 bisher unbekannte Windows-Schwachstellen identifiziert, darunter vier kritische RCE-Lücken (Remote Code Execution). Mit einem Ergebnis von 88,45 % im CyberGym-Benchmark setzt das System neue Industriestandards und übertrifft Anthropic’s Mythos deutlich. Dies markiert den Übergang von agentenbasierter KI von Forschungsexperimenten hin zu einer praxistauglichen Cybersicherheits-Verteidigung in großem Maßstab.

Was passiert ist

Am 12. Mai 2026 veröffentlichten Microsoft Research und das Microsoft Security Team Details zu MDASH, einem Ensemble-basierten KI-System, das den End-to-End-Prozess des Findens, Validierens und Nachweisens von Softwarefehlern automatisiert. Im Gegensatz zu Versuchen mit Einzelmodellen, die oft an der Komplexität großer Codebasen scheitern, nutzt MDASH eine strukturierte Pipeline aus fünf Phasen: Prepare, Scan, Validate, Dedup und Prove.

Bei seinem ersten großflächigen Einsatz gegen den Windows-Kernel und den Netzwerk-Stack entdeckte MDASH 16 Schwachstellen, die im Patchday-Update vom Mai 2026 behoben wurden. Besonders hervorzuheben ist die Identifizierung von CVE-2026-33827 (ein Use-After-Free in tcpip.sys) und CVE-2026-33824 (ein Double-Free in ikeext.dll), beides hochkritische RCE-Lücken.

Warum es wichtig ist

Die Bedeutung von MDASH liegt in seiner Skalierbarkeit und Orchestrierung. Jahrelang war KI in der Cybersicherheit auf „unterstütztes“ Scannen beschränkt – wobei ein LLM einem menschlichen Forscher half, einen Codeabschnitt zu verstehen. MDASH beweist, dass autonome Multi-Agenten-Schwärme nun in der Lage sind, ganze Systeme zu analysieren.

Für Entwickler und Sicherheitsexperten bedeutet das:

Skalierbare Verteidigung: Autonome Systeme können Millionen von Codezeilen mit der Präzision eines menschlichen Auditors, aber mit der Geschwindigkeit von Rechenleistung scannen.
Komplexitätsmanagement: Durch die Aufteilung von Schwachstellenklassen auf spezialisierte Agenten kann das System komplexe Fehler wie Race Conditions und Speicherfehler bewältigen, die herkömmliche statische Analyse-Tools übersehen.
Der „Harness“-Vorteil: Microsoft argumentiert, dass die wahre Stärke nicht in einem einzelnen „smarten“ Modell liegt, sondern in der Orchestrierung (dem Harness), die die Logik, den Widerspruch (Auditoren vs. Debattierer) und die Validierung verwaltet.

Belege

Benchmark-Erfolg: MDASH erreichte 88,45 % im CyberGym-Benchmark und schlug damit Anthropic’s Mythos (83,1 %) und OpenAI’s Daybreak.
Praktische Auswirkungen: 16 entdeckte und gepatchte Windows-Schwachstellen, darunter 4 kritische RCEs.
Interne Tests: Microsoft berichtete von einer 100%igen Trefferquote bei historischen TCP/IP-Schwachstellen in privaten Tests.
Architektur: Eine dokumentierte 5-Stufen-Pipeline mit über 100 spezialisierten Agenten und domänenspezifischen Plugins.

Analyse

MDASH stellt einen strategischen Wendepunkt bei der KI-Implementierung dar. Anstatt ein einzelnes massives Modell zu bauen, das „alles kann“, hat Microsoft einen Schwarm von Spezialisten entwickelt. Das Auditor-Debater-Muster ist besonders raffiniert: Ein Auditor-Agent schlägt einen Fehler vor, und ein Debatter-Agent versucht, dessen Ausnutzbarkeit zu widerlegen. Wenn der Debattierer scheitert, wird der Fund priorisiert. Diese Nachahmung des menschlichen Peer-Reviews reduziert Fehlalarme und fokussiert die Ressourcen auf echte Bedrohungen.

Darüber hinaus ermöglicht die modellunabhängige Natur des Systems Microsoft, die zugrunde liegenden LLMs auszutauschen, sobald bessere Modelle verfügbar sind. Diese „langlebige Architektur“ deutet darauf hin, dass die Zukunft des KI-Engineerings eher in der Orchestrierungsschicht als in den Modellen selbst liegt.

Praktische Empfehlungen

Für Unternehmen: Sicherheitsteams sollten beginnen, „agentenbasierte Orchestrierungen“ für ihre eigenen internen Codebasen zu evaluieren. Die Ära des statischen „Grep-Style“-Scannens neigt sich dem Ende zu.
Für KI-Entwickler: MDASH bietet eine Blaupause für die Zerlegung komplexer Aufgaben. Wer Agenten für komplizierte Domänen (Recht, Medizin, Technik) baut, findet im Auditor-Debater-Muster einen effektiven Weg zur Qualitätssicherung.
Für Entwickler: Erwarten Sie eine neue Generation von IDE-Tools, die Code nicht nur „linten“, sondern ihn in Echtzeit aktiv „angreifen“, um Schwachstellen zu finden, bevor sie überhaupt eingecheckt werden.

Offene Fragen

Das Gleichgewicht zwischen Angriff und Verteidigung: Wenn autonome Verteidigung zum Standard wird, wie lange dauert es, bis Angreifer ähnliche Pipelines einsetzen, um 0-Day-Lücken zu finden?
Kosteneffizienz: Der Betrieb von über 100 Agenten pro Scan ist rechenintensiv. Wann wird diese Technologie für kleinere Open-Source-Projekte erschwinglich sein?
Menschliche Aufsicht: Wenn die „Prove“-Phase autonomer wird, welche Rolle bleibt dem menschlichen Sicherheitsforscher in der finalen Entscheidungsfindung?

Quellen

Beziehen Sie sich auf die Quellenliste in sources.md.