La licorne canadienne Cohere frappe un grand coup ce jeudi avec le lancement de Transcribe, son tout premier modèle de reconnaissance vocale automatique (ASR). Positionné d’emblée comme le nouveau fer de lance de l’audio open source, ce modèle de 2 milliards de paramètres sous licence Apache 2.0 vient bousculer un marché jusqu’ici dominé par les API cloud propriétaires et le célèbre Whisper d’OpenAI.
Le Canada a le vent en poupe cette semaine, après l‘annonce de Mozilla et Mila, dont nous parlions ce lundi. Basé sur une architecture Conformer — un hybride ingénieux entre réseaux de neurones convolutifs et Transformers, Cohere Transcribe s’est directement hissé à la première place du classement Open ASR Leaderboard de Hugging Face.
Avec un taux d’erreur moyen (WER) de 5,42 %, il surclasse des références établies comme Whisper Large v3, ElevenLabs Scribe v2 ou encore Qwen3-ASR. En français, le modèle brille particulièrement, offrant une précision chirurgicale idéale pour les environnements professionnels exigeants.
L’auto-hébergement comme cheval de bataille
Là où la plupart des acteurs misent sur des API dépendantes du cloud, Cohere fait le pari de la souveraineté technologique. Transcribe est conçu pour fonctionner sur du matériel grand public, permettant aux entreprises de garder le contrôle total sur leurs données audio sensibles.
-
Vitesse phénoménale : Capable de traiter 525 minutes d’audio par minute de temps de calcul.
-
Endurance : Gère les enregistrements de longue durée (réunions, conférences) grâce à un découpage automatique en segments de 35 secondes sans perte de contexte.
-
Polyvalence : Support natif de 14 langues, incluant l’anglais, le français, l’arabe, le chinois et le japonais.
La voix, nouvelle frontière de l’IA d’entreprise
Pour Cohere, traditionnellement axé sur le texte et les embeddings, cette incursion dans l’audio complète une stack IA déjà impressionnante. Le modèle est disponible gratuitement via l’API Cohere, en téléchargement sur Hugging Face et documenté dans leur référence technique.
| Caractéristique | Détails |
| Taille du modèle | 2 milliards de paramètres |
| Architecture | Conformer-based encoder-decoder |
| Licence | Apache 2.0 (Open Source) |
| Langues | 14 (Européennes, AIPAC, MENA) |
| Performance (WER) | 5,42 % (Moyenne Leaderboard) |
| Cible | Auto-hébergement, usage local, GPU grand public |
Cette annonce fait d’ailleurs écho à l’actualité brûlante de ce début de semaine. Alors que Cohere s’occupe de transformer la voix en texte, Mistral AI a dévoilé, en fin de semaine dernière, Voxtral TTS (voir notre article), son modèle de synthèse vocale (texte vers voix). Le puzzle de la communication homme-machine en open source semble enfin complet
