Vue d'un laboratoire de développement d'IA physique montrant un bras robotique articulé blanc fixé à une structure métallique. Le robot est positionné au-dessus d'une grande table en bois verni sur laquelle repose une assiette rouge contenant deux bananes mûres, tandis qu'une troisième banane est saisie par la pince mécanique. Au premier plan à droite, on distingue une bouteille de moutarde jaune, un bol rouge et une brique de lait en carton.

Le « Big Bang » de la robotique chez Nvidia : Cosmos 3, premier cerveau universel pour robots en open source

Dans le secteur de l’intelligence artificielle appliquée au monde réel, lors du traditionnel discours d’ouverture du GTC Taipei, Jensen Huang a jeté un pavé monumental dans la mare des solutions propriétaires. Le fondateur et PDG de la firme a dévoilé Cosmos 3, qu’il qualifie lui-même de premier omnimodèle entièrement ouvert dédié à l’« IA physique ».

Loin des modèles de langage classiques confinés aux fenêtres de chat textuel, Cosmos 3 est un système unifié capable de comprendre la physique, de modéliser l’environnement en temps réel et de prédire les trajectoires d’actions de machines autonomes. En décidant de libérer cette technologie de pointe, Nvidia s’apprête à faire passer les cycles d’entraînement des robots industriels de plusieurs mois à seulement quelques jours.

Mixture-of-Transformers : un seul modèle pour tout orchestrer

Jusqu’à présent, concevoir un robot ou un véhicule autonome obligeait les ingénieurs à faire cohabiter une multitude de modèles IA spécialisés : un pour la vision, un pour la compréhension textuelle, un autre pour la prédiction de mouvement ou encore un dernier pour la gestion des commandes motrices. Cosmos 3 balaie cette complexité grâce à son architecture révolutionnaire en Mixture-of-Transformers (MoT).

Sous le capot, le modèle traite l’intégralité des modalités (texte, image, vidéo, son ambiant et données d’action vectorielles) au sein d’une seule et unique architecture unifiée. Le flux de données se divise astucieusement en deux sous-séquences logiques:

  • La séquence autorégressive (AR) est entièrement dédiée au raisonnement multimodal, à la causalité et à l’analyse des propriétés spatiales.

  • La séquence de diffusion (DM) se charge de la génération visuelle itérative, permettant de concevoir des simulations vidéo de mondes virtuels ultra-réalistes conformes aux lois de la physique.

Grâce à un mécanisme d’attention conjointe, Cosmos 3 peut ainsi basculer instantanément d’un rôle de vision-langage à celui de simulateur de conduite ou de contrôleur robotique en une seule passe, sans aucune modification structurelle. Les résultats parlent d’eux-mêmes : le modèle s’est hissé à la première place des benchmarks mondiaux de référence comme Physics-IQ, PAI-Bench ou RoboArena.

Du GPU de bureau aux clusters de serveurs : deux tailles pour dominer le secteur

Nvidia a décliné son nouveau fleuron technologique en deux variantes distinctes afin de couvrir tous les types d’infrastructures informatiques:

  • Cosmos 3 Nano (16 milliards de paramètres) : cette version optimisée associe un processeur de raisonnement de 8B à un générateur de 8B. Elle est spécialement calibrée pour s’exécuter localement sur des stations de travail équipées de cartes graphiques professionnelles comme la Nvidia RTX PRO 6000. Elle est accessible directement sur Hugging Face (nvidia/Cosmos3-Nano).

  • Cosmos 3 Super (64 milliards de paramètres) : ce monstre de puissance (32B pour le raisonnement, 32B pour la génération) est conçu pour la recherche avancée et la génération massive de données d’entraînement synthétiques. Il nécessite l’utilisation de clusters de calcul équipés de puces d’architecture Hopper ou Blackwell. Il est téléchargeable sur Hugging Face (nvidia/Cosmos3-Super).

Note éditoriale : une version ultra-rapide baptisée Cosmos 3 Edge sera également déployée très prochainement pour l’inférence temps réel embarquée directement en périphérie de réseau.

Une coalition industrielle massive autour de l’open source

Pour valider l’impact de Cosmos 3, Nvidia ne s’avance pas seule. Le fondeur a officialisé la création de la Cosmos Coalition, associant des studios d’IA et des laboratoires de premier plan comme Runway, Black Forest Labs, LTX, Skild AI, Generalist et Agile Robots. Du côté des industriels lourds, des géants de l’électronique et de la construction automobile tels que Samsung, LG Electronics, Li Auto ou Doosan Robotics ont déjà intégré la plateforme pour propulser leurs infrastructures automatisées.

L’intégralité des poids du modèle, des scripts d’entraînement et des ensembles de données synthétiques ont été téléversés sous les termes de la licence OpenMDW License Agreement (version 1.1). Les développeurs et chercheurs peuvent cloner le projet directement depuis le GitHub officiel de Nvidia Cosmos, utiliser les modèles sous forme de microservices packagés (Nvidia NIM) ou passer par les infrastructures de cloud partenaires comme Microsoft Azure, CoreWeave ou Nebius. Le code source complet et les guides techniques d’intégration sont consultables sur l’espace d’ingénierie Nvidia Cosmos.

🦋 L’actualité de l’open source débarque dans votre flux. Suivez Goodtech sur Bluesky (ou vos applications AT Protocol préférées) grâce à notre bot officiel. Cliquez, suivez, partagez, c’est par ici !

Retour en haut