Qwen3-Omni : l’IA open source d’Alibaba qui veut rivaliser avec OpenAI

Le géant chinois Alibaba a présenté Qwen3-Omni, un modèle d’intelligence artificielle multimodal et open source capable de traiter du texte, des images, de l’audio et de la vidéo, tout en générant des réponses en temps réel à la fois écrites et vocales. Avec ce lancement, Alibaba s’attaque frontalement aux géants américains de l’IA comme OpenAI et Google DeepMind, en misant sur l’ouverture et la performance pour séduire les développeurs… du monde entier.

Qwen3-Omni se distingue par son approche dite omni-modale : il peut comprendre et générer du contenu à travers plusieurs types de médias sans perte de qualité par rapport aux modèles spécialisés. Sur 36 benchmarks, le modèle atteint des résultats de pointe dans 32 d’entre eux, surpassant notamment Gemini 2.5 Pro de Google dans les tests de reconnaissance audio et multimédia.

Alibaba met en avant des performances impressionnantes, avec une latence de seulement 211 millisecondes dans les scénarios audio et environ 500 millisecondes en audio-vidéo. Le modèle est capable de gérer jusqu’à 30 minutes de contenu audio en entrée et prend en charge 119 langues en texte, 19 en compréhension vocale et 10 en génération vocale, confirmant son orientation internationale.

Un agent pensé pour les usages concrets

Qwen3-Omni n’est pas seulement une vitrine technologique. Alibaba l’a déjà intégré à des services concrets, notamment dans Amap, son application de navigation, où l’IA planifie des voyages sur plusieurs jours grâce à ses capacités de recherche et de raisonnement. Autre intégration, dans Tongyi FaRui, un outil de recherche juridique, où il améliore la précision dans la recherche de jurisprudence avec des références vérifiées.

Cette logique d’intégration démontre que l’agent n’est pas réservé aux laboratoires, mais pensé pour répondre aux besoins réels des utilisateurs et des entreprises.

Open source pour séduire la communauté

En ouvrant Qwen3-Omni, Alibaba poursuit une stratégie offensive : gagner la confiance des développeurs et stimuler l’adoption à grande échelle. Sur Hugging Face, plus de 100 000 modèles dérivés de la famille Qwen ont déjà été publiés, dépassant ceux de la gamme Llama de Meta.

Avec Qwen3-Omni, publié sur Github sous licence Apache, Alibaba entend renforcer son écosystème open source et montrer que l’innovation en IA n’est pas réservée aux entreprises américaines. La firme affirme avoir conçu une architecture Thinker-Talker, combinant génération de texte et de voix avec un rendu audio ultra-rapide.

Le lancement intervient dans un contexte de compétition mondiale croissante. Alors qu’OpenAI a marqué un tournant avec son agent Deep Research, Alibaba affirme que son modèle de 30 milliards de paramètres peut offrir une efficacité comparable, voire supérieure, avec une architecture optimisée.

Retour en haut