Xiaomi ne veut plus seulement être le géant des smartphones et des trottinettes. Ce 23 avril 2026, l’entreprise a franchi une étape majeure dans sa mue en leader de l’IA fondamentale en rendant open source ses deux nouveaux modèles de voix : MiMo-V2.5-TTS (synthèse) et MiMo-V2.5-ASR (reconnaissance). Une offensive qui vise directement ce que Xiaomi appelle « l’ère des agents », où la voix devient l’interface ultime.
Cette publication fait suite à la bêta publique lancée le 22 avril et s’inscrit dans un calendrier effréné : la version V2.5 arrive à peine un mois après la V2.0, signe que l’équipe MiMo ne dort visiblement plus beaucoup.
La synthèse vocale (TTS) : des émotions sur commande
Le pipeline de synthèse vocale (TTS) Mimo de Xiaomi se décline en trois variantes redoutables, capables de produire un audio à une fréquence d’échantillonnage de 24 000 Hz :
-
MiMo-V2.5-TTS : La version standard avec des voix de haute qualité.
-
VoiceDesign : Permet de créer une voix de toutes pièces à partir d’une simple description textuelle.
-
VoiceClone : Capable de reproduire fidèlement n’importe quelle voix avec un échantillon audio minimal.
Le point fort ? Le contrôle émotionnel. Le modèle comprend des instructions en langage naturel comme « parle d’un ton doux mais fatigué » ou peut intégrer des balises spécifiques pour simuler des sanglots ou une inspiration soudaine. Le système gère le chinois, l’anglais et plusieurs dialectes régionaux.
La reconnaissance vocale (ASR) : l’oreille absolue
Disponible sur Hugging Face et Github, le modèle MiMo-V2.5-ASR se veut être l’oreille la plus fine du marché open source. Il excelle dans les environnements bruyants et les conversations multi-locuteurs (type réunions).
Performances comparées (Lower WER is better)
| Modèle | AiShell-2 (Chinois) | Fleurs-Zh | CommonVoice-Zh |
| Whisper-large-v3 | 7.44* | – | 9.54 |
| Gemini-3.1-Pro | 4.52 | 3.3 | 7.74 |
| MiMo-V2.5-ASR | 2.52 | 2.41 | 4.90 |
*Basé sur les scores WER (Word Error Rate) moyens.
Le modèle gère nativement l’alternance codique (code-switching) entre le mandarin et l’anglais sans broncher, et s’offre même le luxe de transcrire des paroles de chansons malgré un accompagnement musical bruyant. Cerise sur le gâteau : il génère la ponctuation de manière sémantique, rendant les transcriptions immédiatement lisibles.
Vous pouvez d’ailleurs tester la démo officielle pour vous en convaincre. Cela dit, attention, pas encore de français à bord actuellement. Pourquoi on ne voit pas encore de français, d’allemand ou d’espagnol ? Xiaomi se concentre d’abord sur son marché domestique et sur l’Anglais pour la portée internationale immédiate. Cependant, l’architecture étant open source (Ndlr : sous licence Apache) rien n’empêche la communauté de « finetuner » (ajuster) ces modèles pour d’autres langues européennes dans les mois à venir.
