Défense à la vitesse de l’IA : le nouveau système de sécurité agentique multi-modèles de Microsoft arrive en tête d’un benchmark de référence de l’industrie

Par

Microsoft Source

Adaptation du blogpost de Taesoo Kim, Vice President, Agentic Security, Microsoft

Microsoft a annoncé le 12 mai dernier le lancement du Microsoft Security multi-model agentic scanning harness (MDASH), un nouveau système de sécurité multi-modèles basé sur l’IA capable d’identifier, valider et démontrer automatiquement des vulnérabilités exploitables dans Windows.

Développé par l’équipe Autonomous Code Security de Microsoft, MDASH a déjà permis d’identifier 16 nouvelles vulnérabilités corrigées lors du Patch Tuesday du 12 mai 2026, dont quatre failles critiques d’exécution de code à distance affectant notamment la pile TCP/IP de Windows et le service IKEv2.

Le système s’appuie sur plus de 100 agents IA spécialisés fonctionnant à travers plusieurs modèles afin d’automatiser l’analyse, la validation et la reproduction de vulnérabilités complexes. Cette approche permet de réduire fortement les faux positifs et d’améliorer la détection de vulnérabilités réellement exploitables.

MDASH a obtenu un score de 88,45 % sur le benchmark public CyberGym, prenant la tête du classement publié au moment de l’annonce.

Le système est déjà utilisé par les équipes de sécurité de Microsoft et actuellement testé auprès d’un nombre limité de clients dans le cadre d’une préversion privée.

MDASH : le nouveau framework de détection agentique multi-modèles de Microsoft Security

MDASH est, avant tout, un système agentique de découverte et de remédiation des vulnérabilités. Les composants analysés, comme Windows, Hyper-V et Azure, reposent sur des bases de code propriétaires qui ne sont pas accessibles publiquement ni présentes dans les corpus d’entraînement standards des modèles d’IA.

Le modèle n’est qu’un élément parmi d’autres : c’est l’architecture du système qui constitue le véritable produit. Une manière utile de le comprendre est de le voir comme un pipeline structuré capable d’analyser une base de code afin de produire des vulnérabilités validées et démontrées :

Préparation : analyse du code source, des commits et de la surface d’attaque.

Analyse : des agents spécialisés détectent des vulnérabilités potentielles et génèrent des éléments de preuve.

Validation : d’autres agents vérifient l’exploitabilité et la pertinence des vulnérabilités détectées.

Déduplication : les doublons et vulnérabilités équivalentes sont regroupés automatiquement.

Preuve : le système tente de reproduire la vulnérabilité afin d’en confirmer l’existence.

Trois piliers soutiennent le fonctionnement de cette architecture :

Une orchestration multi-modèles : MDASH combine plusieurs modèles IA utilisés de manière complémentaire selon leurs points forts respectifs. Les divergences d’analyse entre modèles deviennent elles-mêmes des signaux utiles pour renforcer ou invalider certains résultats et réduire les faux positifs. Les modèles les plus avancés sont mobilisés pour les analyses complexes, tandis que les modèles plus légers prennent en charge certaines tâches de validation et d’automatisation à grande échelle.

Des agents spécialisés : chaque agent joue un rôle spécifique : certains se concentrent sur l’audit du code, d’autres sur la validation des résultats ou sur la reproduction concrète des vulnérabilités détectées. MDASH s’appuie sur plus de 100 agents spécialisés entraînés à partir de vulnérabilités connues et de leurs correctifs.

Une architecture extensible et indépendante des modèles : le système peut être enrichi par des plugins spécialisés intégrant des connaissances propres à certains composants Windows ou scénarios de sécurité avancés. Cette architecture permet également d’intégrer rapidement de nouvelles générations de modèles sans reconstruire l’ensemble du pipeline de sécurité.

Deux vulnérabilités révélatrices des capacités de MDASH

Les deux vulnérabilités ci-dessous illustrent la capacité du pipeline multi-modèles de Microsoft Security à détecter des scénarios complexes, qu’une approche reposant sur un seul modèle aurait plus de difficulté à identifier.

CVE-2026-33827 – Vulnérabilité de type use-after-free dans tcpip.sys : une faille critique dans la pile réseau IPv4 de Windows permettait à un attaquant distant non authentifié d’exploiter un problème de gestion mémoire via des paquets IPv4 spécialement conçus utilisant l’option SSRR. Cette vulnérabilité reposait sur des mécanismes de concurrence complexes difficiles à identifier avec une approche reposant sur un seul modèle.

CVE-2026-33824 – Exécution de code distante via IKEEXT : cette vulnérabilité affectait le service IKEEXT de Windows et permettait une exécution de code distante pré-authentification via IKEv2 sur certains environnements VPN et IPsec. Le bug reposait sur un problème de double-free réparti sur plusieurs fichiers sources et impliquant des mécanismes complexes de gestion mémoire.

MDASH à l’épreuve des benchmarks

Microsoft a évalué MDASH sur des versions antérieures de composants Windows afin de vérifier si des vulnérabilités historiquement traitées par le Microsoft Security Response Center (MSRC) auraient été détectées :

clfs.sys : 96 % des vulnérabilités retrouvées sur cinq ans ;

tcpip.sys : 100 % des vulnérabilités retrouvées sur cinq ans.

Ces résultats montrent la capacité du système à identifier des vulnérabilités réelles ayant nécessité des correctifs de sécurité.

MDASH a également identifié l’ensemble des 21 vulnérabilités volontairement injectées dans un environnement de test interne, sans générer de faux positifs.

Sur le benchmark public CyberGym, qui regroupe 1 507 scénarios réels de reproduction de vulnérabilités, MDASH a obtenu un score de 88,45 %, soit le meilleur résultat publié au moment de l’annonce.

Ces performances illustrent l’importance de l’architecture multi-agents et des mécanismes de validation au-delà des seuls modèles d’IA utilisés.

Un changement de paradigme pour la détection de vulnérabilités

La découverte de vulnérabilités assistée par IA n’est plus un sujet expérimental, mais un véritable enjeu d’ingénierie à grande échelle. Les résultats obtenus lors du Patch Tuesday du 12 mai 2026 et sur plusieurs benchmarks internes illustrent la capacité de ces systèmes à passer à l’échelle.

L’un des principaux enseignements tirés du développement de MDASH est que la valeur ne réside pas uniquement dans les modèles d’IA eux-mêmes, mais dans le système capable de les orchestrer :

Une analyse multi-étapes : certaines vulnérabilités complexes nécessitent de croiser plusieurs analyses : comparaison inter-fichiers, validation progressive, confrontation entre agents spécialisés et reproduction des scénarios d’exploitation.

La validation comme élément central : l’objectif n’est pas uniquement de détecter des vulnérabilités potentielles, mais de réduire les faux positifs et de démontrer concrètement les failles identifiées avant leur transmission aux équipes de sécurité.

Une architecture durable et indépendante des modèles : MDASH peut intégrer rapidement de nouvelles générations de modèles sans reconstruire l’ensemble du pipeline de sécurité, permettant ainsi de faire évoluer le système dans le temps.

La question clé autour des outils de détection de vulnérabilités par IA n’est donc plus uniquement « quel modèle utiliser ? », mais plutôt « comment orchestrer efficacement ces modèles pour produire des résultats fiables et exploitables ? ».

Retrouvez tous les détails de cette annonce sur le blogpost rédigé par Taesoo Kim.

Revenir sur Source France

Security

Tags: