L’équipe Qwen d’Alibaba Cloud a publié le 29 janvier Qwen3-ASR, un nouveau système de reconnaissance vocale automatique open source qui, selon l’entreprise, atteint des performances de pointe parmi les modèles open source tout en prenant en charge 52 langues et dialectes. Cette publication étend les capacités d’IA multimodale de Qwen au traitement de la parole, sous licence Apache 2.0 permettant une utilisation commerciale sans restriction.
La famille Qwen3-ASR comprend trois modèles : le modèle phare Qwen3-ASR-1.7B avec 1,7 milliard de paramètres, une variante plus efficace Qwen3-ASR-0.6B, et Qwen3-ForcedAligner-0.6B pour la prédiction précise d’horodatage. Tous les modèles sont disponibles sur GitHub, Hugging Face et ModelScope.
Performances supérieures à Whisper-large-v3 et compétitives avec les API commerciales
Selon le rapport technique publié sur arXiv, Qwen3-ASR-1.7B surpasse le modèle Whisper-large-v3 d’OpenAI, largement utilisé, dans plusieurs catégories de tests de référence tout en restant compétitif avec les API commerciales propriétaires les plus performantes. L’équipe a effectué des évaluations par rapport à des services commerciaux, notamment GPT-4o-Transcribe, Gemini-2.5-Pro et Doubao-ASR.
La version plus compacte de 0,6 milliard de paramètres offre ce qu’Alibaba décrit comme le meilleur compromis entre précision et efficacité : capable de transcrire 2 000 secondes d’audio en une seconde avec une latence de premier jeton aussi faible que 92 millisecondes.
Les modèles prennent en charge 30 langues, dont le chinois, l’anglais, l’arabe, l’allemand, le français, le japonais et le coréen, ainsi que 22 dialectes régionaux chinois tels que le cantonais, le sichuanais et la langue wu. Les deux versions gèrent des conditions audio difficiles, notamment le bruit de fond, la parole accentuée de 16 groupes d’accents anglais et les voix chantées avec musique de fond.
Cette version s’appuie sur le modèle fondamental Qwen3-Omni de Qwen, en exploitant environ 40 millions d’heures de données d’entraînement vocal. Qwen3-ForcedAligner-0.6B, également inclus dans cette version, introduit ce que l’équipe qualifie de premier aligneur forcé multilingue léger basé sur LALM, qui fournit des horodatages au niveau des mots dans 11 langues.
Qwen : 700 millions de téléchargements, devant Llama de Meta
Cette annonce intervient alors que Qwen est devenu la famille de modèles d’IA open source la plus téléchargée au monde. Selon des rapports publiés plus tôt en janvier, Qwen a dépassé les 700 millions de téléchargements cumulés sur Hugging Face, surpassant les modèles Llama de Meta en octobre 2025. Alibaba a désormais rendu open source près de 400 modèles Qwen, donnant naissance à plus de 180 000 versions dérivées créées par la communauté mondiale des développeurs.
Alibaba Cloud détient environ 35,8 % du marché chinois du cloud IA, avec un chiffre d’affaires cloud IA atteignant 22,3 milliards de yuans (environ 2,87 milliards d’euros) au premier semestre 2025. L’entreprise s’est engagée à investir 380 milliards de yuans (environ 48,9 milliards d’euros) sur trois ans dans les infrastructures IA.
« Qwen3-ASR et Qwen3-ForcedAligner sont désormais en open source — des modèles vocaux prêts pour la production, conçus pour l’audio complexe du monde réel », a écrit l’équipe Qwen sur les réseaux sociaux.
Qwen3-ASR and Qwen3-ForcedAligner are now open source — production-ready speech models designed for messy, real-world audio, with competitive performance and strong robustness.
● 52 languages & dialects with auto language ID (30 languages + 22 dialects/accents)
● Robust in… pic.twitter.com/q7RWjJFXgH— Qwen (@Alibaba_Qwen) January 29, 2026
