Mistral AI vient d’annoncer le lancement de deux modèles de transcription automatique vocale : Voxtral Mini Transcribe 2 pour la transcription par lots, et Voxtral Mini 4B Realtime pour les applications en temps réel. Les deux modèles sont disponibles sous licence Apache 2.0 en open weights, marquant une nouvelle offensive française face à Whisper d’OpenAI.
La stratégie de Mistral AI est claire : proposer des performances équivalentes ou supérieures à la concurrence, tout en cassant les prix et en permettant le déploiement local sur smartphones et ordinateurs portables. Le tout avec une licence permissive qui autorise modification et déploiement commercial.
Open weights Apache 2.0 : nuance importante
Précision terminologique importante : Mistral AI parle d’open weights, pas d’open source complet. Les poids du modèle sont ouverts et téléchargeables sur Hugging Face, mais le code d’entraînement et les datasets ne sont pas publics.
La licence Apache 2.0 reste néanmoins très permissive : les développeurs peuvent télécharger, modifier et déployer Voxtral Realtime sur leur propre infrastructure, y compris pour des usages commerciaux, sans restriction.
Deux modèles complémentaires
Voxtral Mini Transcribe 2 cible la transcription par lots avec des fonctionnalités avancées. Le modèle identifie automatiquement qui parle quand (diarisation des locuteurs), fournit des horodatages au niveau des mots avec une précision à la milliseconde, et permet l’adaptation contextuelle en fournissant jusqu’à 100 mots ou expressions pour guider la reconnaissance des noms propres et termes techniques. Il supporte 13 langues (anglais, chinois, hindi, espagnol, arabe, français, portugais, russe, allemand, japonais, coréen, italien, néerlandais), traite des fichiers audio jusqu’à 3 heures, et reste robuste au bruit dans les environnements difficiles.
Voxtral Realtime (4 milliards de paramètres) est optimisé pour le streaming en direct avec une latence configurable jusqu’à moins de 200 millisecondes. Le modèle fonctionne en déploiement edge sur smartphone et laptop, ce qui le rend idéal pour les agents vocaux et applications temps réel. Il supporte les mêmes 13 langues que la version Transcribe.
Prix cassés : 6x moins cher qu’OpenAI
Mistral AI adopte une stratégie tarifaire agressive via son API :
- Voxtral Mini Transcribe 2 : 0,001 $ par minute (≈ 0,0009 €/min)
- Voxtral Realtime : 0,006 $ par minute (≈ 0,0055 €/min)
- Whisper d’OpenAI (référence du marché) : 0,006 $ par minute (≈ 0,0055 €/min)
Autrement dit, Voxtral Mini Transcribe 2 coûte 6 fois moins cher que Whisper pour des performances que Mistral AI revendique comme équivalentes ou supérieures, notamment sur les langues non-anglaises.
Performances revendiquées face à la concurrence
Selon les benchmarks internes de Mistral AI, Voxtral surpasse Whisper large-v3 d’OpenAI et rivalise avec des systèmes propriétaires comme Gemini 2.5 Flash de Google et GPT-4o mini Transcribe, particulièrement sur les contextes multilingues.
Pierre Stock, vice-président Science chez Mistral AI, déclare : « Voxtral Transcribe 2 prouve que la transcription de pointe peut fonctionner localement, sans compromettre la précision ou la vitesse. Pour les entreprises et les utilisateurs qui exigent confidentialité et contrôle, cela change tout. »
Déploiement edge : la confidentialité par défaut
La capacité de déploiement sur appareil répond aux préoccupations croissantes des entreprises en matière de confidentialité des données. Les organisations peuvent désormais traiter des contenus audio sensibles (réunions confidentielles, dossiers médicaux, conversations clients) sans envoyer de données vers des serveurs externes.
Les deux modèles supportent les déploiements conformes RGPD et HIPAA via des configurations on-premise ou cloud privé. Mistral AI s’associe notamment avec Dassault Systèmes via son cloud OUTSCALE pour proposer des services d’IA entièrement souverains aux industries européennes réglementées, garantissant la résidence des données au sein de l’UE.
Continuité de la stratégie souveraine européenne
Ce lancement s’inscrit dans la stratégie plus large de Mistral AI comme alternative européenne face aux géants américains et chinois. L’entreprise a levé 1,7 milliard d’euros lors d’un tour de série C mené par ASML en septembre 2025, soulignant l’engagement industriel européen à construire une infrastructure d’IA indépendante.
Mistral AI a également introduit un Audio Playground dans Mistral AI Studio où les utilisateurs peuvent tester les capacités de transcription des modèles avant déploiement.
Les modèles sont disponibles dès maintenant en API et en téléchargement sur Hugging Face.
