ExCyTIn-Bench est un outil open source conçu pour mesurer les performances réelles des modèles d’intelligence artificielle face à des scénarios de cybersécurité concrets. L’initiative marque une rupture avec les benchmarks classiques fondés sur des tests théoriques : ici, les modèles sont plongés dans des environnements réalistes, comparables à ceux d’un centre d’opérations de sécurité (SOC). Petite particularité ? Cet outil est né dans les laboratoires open source de Microsoft.
L’approche d’ExCyTIn-Bench tranche avec les tests statiques ou les questionnaires à choix multiples, explique Anand Mudgerikar, ingénieur auprès de l’éditeur. L’outil recrée un véritable espace d’investigation au sein d’un espace Azure contrôlé, avec 57 tables de journaux issues de Microsoft Sentinel et de services de sécurité associés. En tout, 589 paires question-réponse générées automatiquement permettent d’évaluer les capacités de raisonnement et d’analyse de modèles d’IA sur huit cyberattaques simulées, chacune comportant plusieurs étapes d’intrusion et d’exfiltration. L’objectif : mesurer la compétence des agents à enquêter, décomposer des objectifs, corréler des indices et formuler des conclusions exploitables.
L’entreprise dit analyser 84 billions de signaux par jour et contrer 7 000 attaques par mot de passe chaque seconde.
Quels résultats ?
Les premiers résultats montrent une amélioration spectaculaire du raisonnement appliqué à la cybersécurité. GPT-5 (raisonnement avancé) obtient la meilleure note avec 56,2 % de réussite, tandis que GPT-5-mini, plus léger, rivalise à moindre coût grâce à une meilleure gestion du “chaîne de raisonnement”. Les modèles open source, quant à eux, réduisent l’écart avec les systèmes propriétaires, confirmant la progression rapide des solutions libres dans la sécurité automatisée.
Au-delà de la recherche, Microsoft utilise déjà ExCyTIn-Bench pour évaluer les performances de ses produits intégrant l’IA — de Security Copilot à Defender — et affiner leurs logiques de détection. Le cadre d’évaluation aide à identifier les angles morts dans la compréhension des menaces, les lacunes des outils ou les biais dans la navigation des données.
ExCyTIn-Bench est disponible sous licence MIT sur GitHub, avec la possibilité de créer ses propres scénarios d’évaluation et de contribuer à l’évolution du projet.


