G42, Cerebras Systems et l’Institute of Foundation Models de l’Université Mohamed bin Zayed d’intelligence artificielle viennent d’annoncer la sortie de K2 Think V2. Le modèle de raisonnement de 70 milliards de paramètres est présenté comme le premier système de raisonnement entièrement souverain, avec chaque étape depuis les données de pré-entraînement jusqu’à l’alignement post-entraînement publiée pour inspection et reproduction publiques.
Construit sur le modèle de base K2-V2 Instruct, K2 Think V2 représente une évolution par rapport à la version antérieure de 32 milliards de paramètres publiée en septembre 2025. Cette publication renforce la volonté des Émirats arabes unis d’atteindre l’indépendance technologique dans le développement d’IA avancée, l’ensemble du pipeline d’entraînement n’utilisant que des ensembles de données organisés par l’Institute of Foundation Models de MBZUAI.
Performances sur les benchmarks de raisonnement
K2 Think V2 a obtenu d’excellents résultats sur différents benchmarks de raisonnement lors de tests moyennés sur 16 exécutions. Le modèle a obtenu un score de 90,42 pass@1 sur AIME 2025, 84,79 sur HMMT 2025, et 72,98 sur GPQA Diamond, un benchmark scientifique de niveau master. Sur SciCode, le modèle a enregistré 33,00, tandis que sur Humanity’s Last Exam il a atteint 9,5.
Une évaluation tierce menée par Artificial Analysis a révélé que K2 Think V2 a réduit son taux d’hallucination de 89% à 52% par rapport à son prédécesseur, tout en améliorant le raisonnement en contexte long de 33% à 53%. Le modèle se classe désormais en tête de l’Openness Index de cette entreprise aux côtés de K2-V2 et Olmo-3.
Architecture et entraînement
Le modèle fondamental K2-V2 utilise une architecture transformer dense avec 80 couches, 8 192 dimensions cachées et 64 têtes d’attention, entraîné sur environ 12 billions de tokens issus du corpus TxT360. Le modèle de base étend la longueur de contexte jusqu’à 512 000 tokens grâce à un processus de pré-entraînement intermédiaire en quatre étapes.
Pour K2 Think V2, l’équipe a appliqué une méthode d’apprentissage par renforcement de type GRPO utilisant le jeu de données Guru version 1.5, qui couvre les domaines des mathématiques, du code et des STIM et a été décontaminé des benchmarks d’évaluation. L’entraînement s’est déroulé en deux étapes : la première a limité la longueur des réponses à 32 000 tokens pendant environ 200 itérations, tandis que la seconde l’a étendue à 64 000 tokens pour 50 itérations supplémentaires.
Tout est open source
Les poids du modèle, le code d’entraînement et l’ensemble du pipeline d’apprentissage par renforcement sont disponibles sous licence Apache 2.0 via le dépôt Reasoning360. Des applications mobiles pour iOS et Android ainsi qu’une interface web sont désormais accessibles via k2think.ai.
Cette publication marque une étape importante pour l’IA souveraine des Émirats arabes unis et confirme la volonté du pays de contribuer à l’écosystème open source de l’IA de raisonnement.
