Microsoft MDASH: Multi-Agenten-Ensemble führt Sicherheits-Benchmarks an

Zusammenfassung

Microsoft hat MDASH (Multi-Model Agentic Scanning Harness) vorgestellt, ein revolutionäres KI-gestütztes Sicherheitssystem, das ein Ensemble aus über 100 spezialisierten Agenten einsetzt, um Sicherheitslücken zu entdecken und zu beweisen. Im Gegensatz zu Einzelmodell-Ansätzen orchestriert MDASH mehrere Frontier- und destillierte Modelle, die Erkenntnisse “diskutieren” und validieren. Das System verhält sich dabei eher wie ein Team von Sicherheitsforschern als wie ein einfacher Chatbot. MDASH hat seine Wirksamkeit bereits durch die Identifizierung von 16 neuen Schwachstellen im Windows-Kernel und im Netzwerk-Stack unter Beweis gestellt, darunter vier kritische Remote Code Execution (RCE)-Lücken. Dies markiert die erste große produktive Validierung von Multi-Agenten-Orchestrierung in der hochriskanten Unternehmenssicherheit.

Was passiert ist

Das Microsoft Autonomous Code Security (ACS) Team, bestehend aus Veteranen der DARPA AI Cyber Challenge, hat MDASH entwickelt, um die KI-gestützte Schwachstellenforschung in die produktive Entwicklung zu überführen. MDASH arbeitet in Phasen: Vorbereitung von Zielindizes, Scannen nach Kandidaten, Validierung durch “Debattierer”-Agenten, Deduplizierung von Ergebnissen und schließlich der Beweis der Fehler durch die Generierung von Trigger-Inputs. Während des internen Rollouts wurden 16 bisher unbekannte Schwachstellen in Windows entdeckt, von denen vier kritische RCEs im TCP/IP-Stack und im IKEv2-Dienst waren.

Warum es wichtig ist

Dies ist ein Paradigmenwechsel in der Cybersicherheit. Traditionelles automatisiertes Scannen leidet oft unter hohen Fehlalarmraten (False Positives) und begrenzten logischen Fähigkeiten. Durch den Einsatz eines Multi-Agenten-”Ensemble”-Ansatzes hat Microsoft gezeigt, dass das “agentische System” um die Modelle herum wichtiger ist als die einzelnen Modelle selbst. Es ermöglicht eine höhere Präzision (null Fehlalarme in privaten Tests) und die Fähigkeit, über komplexe, proprietäre Codebasen nachzudenken, die nicht Teil der Trainingsdaten der Modelle waren.

Beweise

16 Zero-Days: Identifiziert in den Windows-Netzwerk- und Authentifizierungs-Stacks.
4 kritische RCEs: Speziell in Komponenten wie dem Kernel-TCP/IP-Stack gefunden.
100% Recall: Erreicht in tcpip.sys im Vergleich zu historischen MSRC-Fällen der letzten fünf Jahre.
Benchmark-Führer: Erzielte 88,45 % beim öffentlichen CyberGym-Benchmark und belegte damit den Spitzenplatz auf der Rangliste.
Null Fehlalarme: In einem kontrollierten Test mit 21 eingeschleusten Schwachstellen fand MDASH alle 21 ohne Rauschen.

Analyse

Der Erfolg von MDASH unterstreicht die Reife von “agentischen Workflows”. Das System fragt nicht einfach eine KI, um Fehler zu finden; es zwingt mehrere KIs zum Wettbewerb und zur Zusammenarbeit. “Auditor”-Agenten markieren Verdächtige, während “Debattierer”-Agenten versuchen, diese zu widerlegen. Wenn ein Debattierer eine Erkenntnis nicht widerlegen kann, steigt deren Glaubwürdigkeit. Dies ahmt die gegnerische Natur der realen Sicherheitsforschung nach. Darüber hinaus bedeutet die modellagnostische Architektur, dass Microsoft bessere Modelle einsetzen kann, sobald diese verfügbar sind, ohne die gesamte Pipeline neu aufbauen zu müssen.

Praktische Erkenntnisse

Für Führungskräfte im Bereich Unternehmenssicherheit lautet die Botschaft, dass sich KI-Sicherheit von “Copiloten” (die Menschen unterstützen) zu “autonomen Systemen” (die End-to-End-Forschung betreiben) entwickelt. Unternehmen sollten über Einzelmodell-Implementierungen hinausblicken und die agentische Orchestrierung für ihre eigenen DevSecOps-Pipelines untersuchen. Während sich MDASH derzeit in einer privaten Vorschau befindet, setzt es den Standard dafür, wie hochwertige Codebasen in naher Zukunft gesichert werden.

Offene Fragen

Kosten vs. Nutzen: Das Ausführen von über 100 Agenten pro Scan ist rechenintensiv. Wie wird Microsoft dies für eine breitere kommerzielle Verfügbarkeit optimieren?
KI-Wettrüsten: Wie schnell werden offensive Akteure ähnliche Multi-Agenten-Ensembles einsetzen, um Schwachstellen zu finden, bevor Anbieter sie patchen können?
Azure-Verfügbarkeit: Wann wird dieser Harness direkt in Azure DevOps oder GitHub Advanced Security für externe Entwickler integriert?