Fond blanc avec un motif répété du mot "MIMO" en gris clair. Au premier plan, un large cercle noir contient le message "你好," (Bonjour en chinois) en blanc, suivi à droite de l'inscription "I'M MiMo" en lettres noires épaisses.

Xiaomi rend open source sa technologie MiMo V2.5 : l’IA vocale open source qui clone votre voix

Xiaomi ne veut plus seulement être le géant des smartphones et des trottinettes. Ce 23 avril 2026, l’entreprise a franchi une étape majeure dans sa mue en leader de l’IA fondamentale en rendant open source ses deux nouveaux modèles de voix : MiMo-V2.5-TTS (synthèse) et MiMo-V2.5-ASR (reconnaissance). Une offensive qui vise directement ce que Xiaomi appelle « l’ère des agents », où la voix devient l’interface ultime.

Cette publication fait suite à la bêta publique lancée le 22 avril et s’inscrit dans un calendrier effréné : la version V2.5 arrive à peine un mois après la V2.0, signe que l’équipe MiMo ne dort visiblement plus beaucoup.

La synthèse vocale (TTS) : des émotions sur commande

Le pipeline de synthèse vocale (TTS) Mimo de Xiaomi se décline en trois variantes redoutables, capables de produire un audio à une fréquence d’échantillonnage de 24 000 Hz :

  • MiMo-V2.5-TTS : La version standard avec des voix de haute qualité.

  • VoiceDesign : Permet de créer une voix de toutes pièces à partir d’une simple description textuelle.

  • VoiceClone : Capable de reproduire fidèlement n’importe quelle voix avec un échantillon audio minimal.

Le point fort ? Le contrôle émotionnel. Le modèle comprend des instructions en langage naturel comme « parle d’un ton doux mais fatigué » ou peut intégrer des balises spécifiques pour simuler des sanglots ou une inspiration soudaine. Le système gère le chinois, l’anglais et plusieurs dialectes régionaux.

La reconnaissance vocale (ASR) : l’oreille absolue

Disponible sur Hugging Face et Github, le modèle MiMo-V2.5-ASR se veut être l’oreille la plus fine du marché open source. Il excelle dans les environnements bruyants et les conversations multi-locuteurs (type réunions).

Performances comparées (Lower WER is better)

Modèle AiShell-2 (Chinois) Fleurs-Zh CommonVoice-Zh
Whisper-large-v3 7.44* 9.54
Gemini-3.1-Pro 4.52 3.3 7.74
MiMo-V2.5-ASR 2.52 2.41 4.90

*Basé sur les scores WER (Word Error Rate) moyens.

Le modèle gère nativement l’alternance codique (code-switching) entre le mandarin et l’anglais sans broncher, et s’offre même le luxe de transcrire des paroles de chansons malgré un accompagnement musical bruyant. Cerise sur le gâteau : il génère la ponctuation de manière sémantique, rendant les transcriptions immédiatement lisibles.

Vous pouvez d’ailleurs tester la démo officielle pour vous en convaincre. Cela dit, attention, pas encore de français à bord actuellement. Pourquoi on ne voit pas encore de français, d’allemand ou d’espagnol ? Xiaomi se concentre d’abord sur son marché domestique et sur l’Anglais pour la portée internationale immédiate. Cependant, l’architecture étant open source (Ndlr : sous licence Apache) rien n’empêche la communauté de « finetuner » (ajuster) ces modèles pour d’autres langues européennes dans les mois à venir.

Retour en haut