Comment savoir si un grand modèle de langage (LLM) est capable d’analyser un logiciel malveillant, de comprendre un rapport de menace ou de soutenir un centre opérationnel de sécurité (SOC) ? C’est pour répondre à cette question que Meta et CrowdStrike viennent de présenter CyberSOCEval, une nouvelle suite de benchmarks open source — autrement dit des référentiels de tests publics — conçue pour mesurer les capacités des IA dans des scénarios de sécurité réels.
Jusqu’ici, les évaluations des LLM se concentraient surtout sur le code, les mathématiques ou la logique générale. Or, la cybersécurité repose sur des tâches très spécifiques : analyse de malwares, raisonnement autour de renseignements sur les menaces, réponse à incident… Autant de situations critiques qui n’étaient pas couvertes par les tests existants. Sans outils partagés, les éditeurs comme les chercheurs manquent de repères pour comparer les modèles. Et les SOC qui veulent expérimenter l’IA dans leurs processus se retrouvent sans garantie sur la pertinence des solutions.
Un cadre ouvert pour toute la communauté
CyberSOCEval s’appuie sur le framework CyberSecEval de Meta et y ajoute l’expertise de CrowdStrike en matière de renseignement sur les menaces. L’initiative couvre deux domaines majeurs : l’analyse de malwares et le raisonnement en threat intelligence. Les tests sont conçus pour refléter des tactiques adverses observées sur le terrain, afin de mesurer l’efficacité des IA dans des conditions réalistes.
Le choix de l’open source est central. En rendant ces benchmarks publics, Meta et CrowdStrike invitent la communauté de la cybersécurité comme de l’IA à les utiliser, les améliorer et les enrichir. Cela permet non seulement de comparer les modèles de manière transparente, mais aussi d’accélérer la recherche collective face à des attaquants qui, eux aussi, utilisent l’IA pour industrialiser leurs offensives.
CyberSOCEval n’est pas une fin en soi : il s’inscrit dans une dynamique plus large de création de standards ouverts pour tester et renforcer les systèmes d’IA appliqués à la sécurité. Comme le souligne Meta, les évaluations actuelles montrent que les LLM sont encore loin d’atteindre leurs limites dans ce domaine, ce qui laisse une marge importante pour la recherche et l’amélioration des modèles.

