Microsoft MDASH: Çoklu Ajan Topluluğu Güvenlik Benchmarklarında Zirvede

Özet

Microsoft, güvenlik açıklarını keşfetmek ve kanıtlamak için 100’den fazla uzmanlaşmış ajandan oluşan bir topluluğu kullanan devrim niteliğinde bir yapay zeka destekli güvenlik sistemi olan MDASH’i (Multi-Model Agentic Scanning Harness) duyurdu. Tek modelli yaklaşımların aksine MDASH, bulguları “tartışmak” ve doğrulamak için birden fazla öncü ve damıtılmış modeli koordine ederek basit bir sohbet robotundan ziyade bir araştırma ekibi gibi hareket ediyor. Sistem, Windows çekirdeği ve ağ yığınında dört kritik uzaktan kod yürütme (RCE) hatası da dahil olmak üzere 16 yeni güvenlik açığı tespit ederek etkinliğini şimdiden kanıtladı. Bu, yüksek riskli kurumsal güvenlikte çoklu ajan koordinasyonunun ilk büyük üretim doğrulamasıdır.

Neler oldu?

DARPA’nın Yapay Zeka Siber Yarışması’ndan gazilerin de yer aldığı Microsoft Otonom Kod Güvenliği (ACS) ekibi, yapay zeka destekli güvenlik açığı araştırmalarını üretim mühendisliğine taşımak için MDASH’i geliştirdi. MDASH aşamalı olarak çalışır: hedef dizinlerin hazırlanması, adaylar için tarama, “tartışmacı” ajanlar aracılığıyla bulguların doğrulanması, sonuçların tekilleştirilmesi ve son olarak tetikleyici girdiler oluşturarak hataların kanıtlanması. Dahili dağıtımı sırasında Windows’ta daha önce bilinmeyen 16 güvenlik açığı tespit edildi; bunlardan dördü TCP/IP yığını ve IKEv2 hizmetindeki kritik RCE’lerdi.

Neden önemli?

Bu, siber güvenlikte bir paradigma değişimidir. Geleneksel otomatik tarama genellikle yüksek hatalı pozitif oranlarından ve sınırlı muhakeme yeteneklerinden muzdariptir. Çoklu ajanlı bir “topluluk” yaklaşımı kullanan Microsoft, modellerin etrafındaki “ajanlık sisteminin” tekil modellerin kendisinden daha önemli olduğunu gösterdi. Bu, daha yüksek hassasiyet (özel testlerde sıfır hatalı pozitif) ve herhangi bir modelin eğitim verilerinin parçası olmayan karmaşık, özel kod tabanları hakkında akıl yürütme yeteneği sağlar.

Kanıtlar

16 Sıfır Gün: Windows ağ ve kimlik doğrulama yığınlarında tanımlandı.
4 Kritik RCE: Özellikle çekirdek TCP/IP yığını gibi bileşenlerde bulundu.
%100 Hatırlama: Tarihsel MSRC vakalarına karşı tcpip.sys dosyasında %100 başarı elde edildi.
Benchmark Lideri: Herkese açık CyberGym benchmarkında %88,45 puan alarak liderlik tablosunda en üst sıraya yerleşti.
Sıfır Hatalı Pozitif: 21 yerleştirilmiş güvenlik açığıyla yapılan kontrollü bir testte MDASH, 21’inin tamamını gürültüsüz bir şekilde buldu.

Analiz

MDASH’in başarısı, “ajanlık iş akışlarının” (agentic workflows) olgunluğunu vurguluyor. Sistem, hataları bulmak için sadece “bir yapay zekaya sormuyor”; birden fazla yapay zekayı rekabet etmeye ve iş birliği yapmaya zorluyor. “Denetçi” ajanlar şüphelileri işaretlerken, “Tartışmacı” ajanlar onları çürütmeye çalışıyor. Eğer bir tartışmacı bir bulguyu çürütemezse, o bulgunun güvenilirliği artıyor. Bu, gerçek dünyadaki güvenlik araştırmalarının çekişmeli doğasını taklit ediyor. Ayrıca, modelden bağımsız mimari, Microsoft’un tüm hattı yeniden inşa etmeden yeni ve daha iyi modelleri sisteme dahil edebileceği anlamına geliyor.

Pratik çıkarımlar

Kurumsal güvenlik liderleri için mesaj, yapay zeka güvenliğinin “yardımcı pilotlardan” (insanlara yardım eden) “otonom sistemlere” (uçtan uca araştırma yapan) doğru evrildiğidir. Kuruluşlar tek modelli uygulamaların ötesine bakmalı ve kendi DevSecOps süreçleri için ajanlık koordinasyonunu araştırmaya başlamalıdır. MDASH şu anda özel önizleme aşamasında olsa da, yüksek değerli kod tabanlarının yakın gelecekte nasıl güvence altına alınacağı konusunda standartları belirliyor.

Açık sorular

Maliyet ve Fayda: Tarama başına 100’den fazla ajanı çalıştırmak hesaplama açısından pahalıdır. Microsoft bunu daha geniş ticari kullanım için nasıl optimize edecek?
Yapay Zeka Silahlanma Yarışı: Saldırgan aktörler, satıcılar yamaları yayınlamadan önce güvenlik açıklarını bulmak için benzer çoklu ajan topluluklarını ne kadar sürede kullanmaya başlayacak?
Azure Kullanılabilirliği: Bu sistem, harici geliştiriciler için ne zaman doğrudan Azure DevOps veya GitHub Advanced Security’ye entegre edilecek?