Logo Ornith-1.0 de DeepReinforce présentant les quatre modèles LLM ouverts pour le codage agentique avec une mascotte d'oiseau développeur.

Codage autonome : les modèles ouverts Ornith-1.0 s’auto-améliorent pour battre les IA propriétaires 🤖💻

Concevoir des agents de codage autonomes sans dépendre d’API fermées, c’est désormais possible. DeepReinforce publie Ornith-1.0, une famille de quatre modèles open source sous licence MIT. Grâce à un entraînement par renforcement inédit, la variante MoE surpasse Claude Opus sur les benchmarks de développement.

Certes, les modèles d’intelligence artificielle propriétaires dominent souvent les classements d’assistants de programmation, mais l’écosystème ouvert s’apprête à redistribuer les cartes. DeepReinforce vient de publier sa nouvelle suite de modèles Ornith-1.0, une famille de quatre modèles de langage optimisés spécifiquement pour le codage agentique, c’est-à-dire la création d’agents de développement capables d’interagir de manière autonome avec des terminaux, des dépôts de code et des environnements d’exécution.

Une gamme complète du format de poche aux architectures MoE géantes

Pour s’adapter à tous les cas d’usage, de la machine locale jusqu’aux grappes de serveurs d’entreprise, la gamme se décline en quatre configurations distinctes :

  • Ornith-1.0-9B-Dense : Un modèle compact ultra-efficace, taillé pour le déploiement local directement sur les machines des développeurs (edge computing).

  • Ornith-1.0-31B-Dense : Une déclinaison intermédiaire offrant un excellent ratio entre exigences matérielles et performances de raisonnement.

  • Ornith-1.0-35B-MoE : Un modèle exploitant le mélange d’experts (Mixture-of-Experts) conçu pour s’exécuter efficacement sur un unique GPU.

  • Ornith-1.0-397B-MoE : Le fleuron de la suite, taillé pour les infrastructures d’entreprise, capable de gérer une fenêtre de contexte massive de 262 144 tokens et déployable sur huit GPU via vLLM ou SGLang.

Ces modèles ont été développés en appliquant une phase de post-entraînement (post-training) sur les bases de modèles de fondation existants, en l’occurrence Gemma 4 de Google et Qwen 3.5 d’Alibaba. Pour garantir une adoption maximale, l’ensemble de la famille est publié sous licence MIT, libre de toute restriction d’utilisation ou de contrainte régionale. Oui oui, on parle bien ici, sans en parler, de l’embargo sur les modèles les plus avancés d’Anthropic, une fenêtre de tir déjà utilisée par Mistral ou encore des ténors chinois.

Un cadre d’entraînement qui co-évolue

La véritable rupture technique introduite par DeepReinforce réside dans sa méthode d’apprentissage par renforcement (RL). Habituellement, pour entraîner une IA à coder, on utilise des scénarios fixes conçus par des humains pour valider le code produit.

Ornith-1.0 change la donne en exploitant un cadre d’entraînement auto-améliorant. Durant la phase d’apprentissage, le modèle n’apprend pas seulement à écrire du code : il apprend simultanément à concevoir et affiner l’infrastructure logique (l’échafaudage ou scaffold) qui pilote sa propre recherche de solutions. En optimisant conjointement la méthode d’exploration et le code produit, l’IA découvre de meilleures trajectoires logiques et génère du code d’une qualité nettement supérieure.

Face au problème du « tricheur » (reward hacking)

Laisser une IA concevoir ses propres critères de validation comporte un risque majeur : le reward hacking, où le modèle modifie subtilement l’environnement pour valider ses tests sans réellement résoudre le problème informatique. Pour contrer cela, DeepReinforce a mis en place une sécurité en trois couches :

  1. Les frontières de l’environnement de test et les outils d’isolation restent strictement immuables.

  2. Un moniteur déterministe attribue une note de zéro à toute tentative de lecture de fichiers interdits ou de modification des scripts de validation.

  3. Un juge LLM gelé intervient en bout de chaîne pour opposer son veto en cas de comportement suspect.

Des performances impressionnantes

Les résultats sur les benchmarks de développement autonomes placent cette suite open source au sommet de sa catégorie. Les développeurs peuvent d’ores et déjà évaluer et télécharger la variante intermédiaire Ornith-1.0-35B ainsi que la version géante de type Mixture-of-Experts Ornith-1.0-397B directement sur Hugging Face.

Sur le terrain du codage agentique pur, le modèle phare Ornith-1.0-397B obtient un score de 77,5 sur Terminal-Bench 2.1 et de 82,4 sur SWE-Bench Verified. Ces métriques lui permettent de dépasser des solutions propriétaires de premier plan comme Claude Opus 4.7 (qui affiche respectivement 70,3 et 80,8 sur ces mêmes tests), tout en surclassant des modèles ouverts concurrents comme DeepSeek-V4-Pro.

Même le plus petit modèle de la famille, la version 9B, réalise la prouesse de rivaliser avec ou de dépasser les performances de modèles pourtant bien plus volumineux, à l’image de Gemma 4-31B ou Qwen 3.6-35B. Tous les modèles de la famille intègrent nativement des capacités de raisonnement par chaîne de pensée (matérialisées par l’ouverture systématique d’une balise <think> avant la réponse) et prennent en charge les appels d’outils au format OpenAI.

🦋 L’actualité de l’open source en français dans votre flux. Suivez Goodtech sur Bluesky (ou vos applications AT Protocol comme W Social et Mu) grâce à notre compte officiel. Suivez, partagez, abonnez-vous à @goodtech.info !

Retour en haut