L’Allen Institute for AI (Ai2) vient de frapper un grand coup. L’organisation à but non lucratif a lancé mardi SERA (Soft-verified Efficient Repository Agents), une famille d’agents de programmation entièrement open source qui peut être entraînée sur vos bases de code privées. Le tout pour environ 400 $, soit 370 € sur du matériel cloud standard, soit plus de 25 fois moins cher que les approches existantes.
SERA arrive sur un marché déjà saturé. GitHub Copilot détient 68 % de parts de marché, Claude 35 %, et des acteurs comme Google Jules, Cursor ou Claude Code d’Anthropic se battent pour le reste. Mais contrairement à ces systèmes largement propriétaires, SERA rend tout disponible en open source sur Github (licence Apache) : modèles, code, recettes d’entraînement, et même intégration avec Claude Code. Et cerise sur le gâteau : vous pouvez le lancer avec une seule ligne de code.
Pour rappel, on avait déjà couvert les ambitions d’Ai2 pour une IA scientifique plus ouverte en août dernier, et le lancement d’Olmo 3 en novembre. Avec SERA, Ai2 continue de bousculer l’industrie avec son approche radicalement ouverte.
370 € pour reproduire les meilleurs modèles open source, vraiment ?
L’innovation technique derrière SERA tient en un concept : la « génération à vérification souple ». Plutôt que d’exiger des tests exhaustifs pour prouver que les données d’entraînement synthétiques sont entièrement correctes, l’équipe d’Ai2 a découvert que des corrections partiellement exactes fonctionnent tout aussi bien pour entraîner le modèle. Résultat : coûts d’entraînement drastiquement réduits.
Selon l’annonce officielle, le coût total pour reproduire des résultats égalant le meilleur modèle open source précédent est d’environ 370 € (400 $) sur du matériel cloud standard. Ai2 a collaboré avec Nvidia pour optimiser l’inférence, atteignant environ 3 700 jetons de sortie par seconde en précision FP8 sur 4 GPU H100.
SERA existe en deux versions :
- Un modèle de 8 milliards de paramètres qui résout 29,4 % des problèmes SWE-Bench Verified
- Une version de 32 milliards de paramètres qui en résout 54,2 % avec une longueur de contexte de 64K
Les deux sont construits sur Qwen3 et entraînés sur une longueur de contexte de 32K. Lorsque les conditions d’inférence sont alignées pour une comparaison équitable, SERA-32B affiche des performances compétitives avec les modèles de pointe comme Devstral Small 2 (50,0 %) et GLM-4.5-Air (50,5 %) à 32K de contexte.
Spécialisation sur base de code privée : 1 200 € pour battre un modèle de 110 milliards de paramètres
Ce qui est encore plus remarquable, c’est la capacité de spécialisation. SERA-32B peut surpasser son modèle enseignant de 110 milliards de paramètres (GLM-4.5-Air) sur des bases de code spécifiques comme Django et Sympy après un entraînement sur seulement 8 000 échantillons pour un coût de 1 200 € (1 300 $).
Cette fonctionnalité s’adresse directement aux organisations possédant des bases de code propriétaires qui ne peuvent pas être partagées avec des API externes. « Si vous êtes une petite ou moyenne entreprise ou un développeur indépendant, vous avez probablement du code qui traite des données clients d’une manière qu’aucun modèle public n’a jamais vue », explique Ai2 dans son annonce.
« Je pense que c’est un très bon terme familier pour ce que nous faisons, mais je pense aussi qu’il sous-estime un peu l’ampleur et le potentiel des agents de codage », confie Ethan Shen, chef de projet de SERA et doctorant à l’Université de Washington.
SERA a été développé en grande partie par un seul chercheur d’Ai2, démontrant qu’un comportement agentique robuste peut être obtenu grâce à l’ajustement fin supervisé sans infrastructure complexe d’apprentissage par renforcement. Les orientations futures pourraient inclure des capacités de contexte long et l’apprentissage par renforcement pour le codage, bien que Shen ait indiqué que la feuille de route reste flexible.
Pour en savoir plus, rendez-vous, par exemple, sur Hugging Face.
