Texte « Xiaomi-Robotics-0 » écrit en lettres blanches sur un fond gris très foncé.

Xiaomi-Robotics-0 : le géant chinois veut libérer le cerveau de ses futurs robots

Xiaomi franchit une étape historique dans le domaine de l’intelligence artificielle physique. Ce week-end, l’entreprise a officialisé la publication de Xiaomi-Robotics-0, son premier modèle d’IA robotique accessible à tous, car la marque souhaite accélérer l’émergence d’une robotique domestique et industrielle ouverte. Avec 4,7 milliards de paramètres, ce modèle de type VLA (Vision-Language-Action) est capable de transformer une commande vocale floue en une manipulation précise et fluide.

Pour atteindre un tel niveau de performance, Xiaomi a opté pour une architecture dite Mixture-of-Transformers (MoT) qui sépare les tâches de haut et de bas niveau. Le système fonctionne comme un organisme vivant :

  • Le cerveau visio-linguistique (VLM) : basé sur Qwen3-VL-4B-Instruct, il s’occupe de la compréhension globale. C’est lui qui analyse l’environnement et interprète des ordres complexes comme « s’il vous plaît, pliez cette serviette ».

  • Le cervelet (Action Expert) : un transformateur de diffusion (DiT) qui génère les mouvements physiques. Il assure une précision millimétrique en produisant des séquences d’actions continues plutôt que des gestes saccadés.

Des performances de pointe sur du matériel grand public

L’un des tours de force de Xiaomi-Robotics-0 est sa capacité à fonctionner en temps réel sur des cartes graphiques grand public, car l’équipe de développement a introduit l’inférence asynchrone. Cette technique permet au robot de continuer son mouvement tout en calculant déjà l’étape suivante, supprimant ainsi les temps de pause qui rendaient les robots de 2010 si maladroits.

Benchmark Score Xiaomi-Robotics-0 Performance
LIBERO 98,7 % Taux de réussite moyen
SimplerEnv 85,5 % Visual Matching
CALVIN 4,80 Longueur de tâche (ABCD-D)

Lors des tests physiques, des robots équipés de ce modèle ont réussi à démonter des structures Lego complexes de plus de 20 briques et à plier des serviettes avec une dextérité impressionnante, car le système est capable d’adapter sa prise en temps réel si un objet lui échappe.

Un projet hybride entre code libre et poids ouverts

Xiaomi joue la carte de la transparence totale pour séduire la communauté des développeurs. Le projet est disponible sur plusieurs plateformes pour faciliter son adoption :

  • Code source : publié sous licence Apache-2.0 sur GitHub.

  • Poids du modèle : accessibles en téléchargement sur Hugging Face.

Cette publication s’inscrit dans une tendance de fond pour 2026 : celle de la souveraineté technologique par l’ouverture.

Retour en haut