C’est le talon d’Achille de la conduite autonome depuis ses débuts : le problème de la « boîte noire ». Lorsqu’une IA prend une décision (freiner brusquement, changer de file), il est souvent impossible pour les ingénieurs de comprendre pourquoi le réseau de neurones a agi ainsi. Nvidia entend résoudre ce problème critique de sécurité et de transparence avec le lancement, ce lundi 1er décembre, d’Alpamayo-R1.
Dévoilé lors de la conférence NeurIPS, ce logiciel est présenté comme une première mondiale dans l’industrie : un modèle « Vision-Language-Action » (VLA) distribué en open source (pour la recherche) capable de raisonner. Contrairement aux systèmes classiques qui se contentent de réagir aux pixels, Alpamayo-R1 intègre une chaîne de pensée qui lui permet d’articuler son raisonnement en langage naturel.
Une IA qui « pense tout haut » pour éviter les accidents
Concrètement, le système ne se contente plus de détecter une piste cyclable et de tourner le volant. Il est capable de formuler : « Je vois une piste cyclable sur la droite avec un cycliste en approche, je déporte donc légèrement le véhicule vers la gauche pour maintenir une distance de sécurité ».
Pour les développeurs et les chercheurs, c’est une révolution. Comme l’explique Katie Washabaugh, responsable marketing produit chez Nvidia : « L’une des motivations principales derrière cette ouverture est de permettre aux développeurs de comprendre comment ces modèles fonctionnent afin que nous puissions, en tant qu’industrie, définir des standards d’évaluation ».
En analysant les « traces de raisonnement » de l’IA, les équipes techniques peuvent désormais identifier précisément pourquoi un véhicule a hésité dans une intersection complexe ou face à un véhicule en double file, facilitant grandement le débogage et la certification de sécurité nécessaire pour atteindre l’autonomie de niveau 4.

Un écosystème « Physical AI » en pleine expansion
Cette annonce s’inscrit dans une offensive plus large de Nvidia sur l’IA physique. Alpamayo-R1 repose sur Nvidia Cosmos, une nouvelle fondation de modèles mondiaux également présentée à NeurIPS. Le modèle devrait rapidement être disponible sur GitHub et Hugging Face pour les chercheurs et les développeurs qui souhaitent l’intégrer dans des workflows non commerciaux. Nvidia a également publié LidarGen, un outil capable de générer des données Lidar synthétiques pour la simulation, et AlpaSim, un cadre pour évaluer les performances d’Alpamayo.
