Cohere Transcribe : le nouveau roi de la reconnaissance vocale open source

La licorne canadienne Cohere frappe un grand coup ce jeudi avec le lancement de Transcribe, son tout premier modèle de reconnaissance vocale automatique (ASR). Positionné d’emblée comme le nouveau fer de lance de l’audio open source, ce modèle de 2 milliards de paramètres sous licence Apache 2.0 vient bousculer un marché jusqu’ici dominé par les API cloud propriétaires et le célèbre Whisper d’OpenAI.

Le Canada a le vent en poupe cette semaine, après l‘annonce de Mozilla et Mila, dont nous parlions ce lundi. Basé sur une architecture Conformer — un hybride ingénieux entre réseaux de neurones convolutifs et Transformers, Cohere Transcribe s’est directement hissé à la première place du classement Open ASR Leaderboard de Hugging Face.

Avec un taux d’erreur moyen (WER) de 5,42 %, il surclasse des références établies comme Whisper Large v3, ElevenLabs Scribe v2 ou encore Qwen3-ASR. En français, le modèle brille particulièrement, offrant une précision chirurgicale idéale pour les environnements professionnels exigeants.

L’auto-hébergement comme cheval de bataille

Là où la plupart des acteurs misent sur des API dépendantes du cloud, Cohere fait le pari de la souveraineté technologique. Transcribe est conçu pour fonctionner sur du matériel grand public, permettant aux entreprises de garder le contrôle total sur leurs données audio sensibles.

Vitesse phénoménale : Capable de traiter 525 minutes d’audio par minute de temps de calcul.
Endurance : Gère les enregistrements de longue durée (réunions, conférences) grâce à un découpage automatique en segments de 35 secondes sans perte de contexte.
Polyvalence : Support natif de 14 langues, incluant l’anglais, le français, l’arabe, le chinois et le japonais.

La voix, nouvelle frontière de l’IA d’entreprise

Pour Cohere, traditionnellement axé sur le texte et les embeddings, cette incursion dans l’audio complète une stack IA déjà impressionnante. Le modèle est disponible gratuitement via l’API Cohere, en téléchargement sur Hugging Face et documenté dans leur référence technique.

Caractéristique	Détails
Taille du modèle	2 milliards de paramètres
Architecture	Conformer-based encoder-decoder
Licence	Apache 2.0 (Open Source)
Langues	14 (Européennes, AIPAC, MENA)
Performance (WER)	5,42 % (Moyenne Leaderboard)
Cible	Auto-hébergement, usage local, GPU grand public

Cette annonce fait d’ailleurs écho à l’actualité brûlante de ce début de semaine. Alors que Cohere s’occupe de transformer la voix en texte, Mistral AI a dévoilé, en fin de semaine dernière, Voxtral TTS (voir notre article), son modèle de synthèse vocale (texte vers voix). Le puzzle de la communication homme-machine en open source semble enfin complet

Cohere Transcribe : le nouveau champion de la reconnaissance vocale passe en open source

L’auto-hébergement comme cheval de bataille

La voix, nouvelle frontière de l’IA d’entreprise

J’aime ça :

Articles similaires

Cohere Transcribe : le nouveau champion de la reconnaissance vocale passe en open source

L’auto-hébergement comme cheval de bataille

La voix, nouvelle frontière de l’IA d’entreprise

Partager :

J’aime ça :

Articles similaires

Must Read