Capture d'écran du modèle Ming-Flash-Omni 2.0 d'Ant Group sur Hugging Face

Ant Group dévoile un modèle IA multimodal (open source) qui envoie du lourd face à Gemini

Le géant chinois de la fintech Ant Group (Alipay) vient de publier en open source Ming-Flash-Omni 2.0, un modèle multimodal qui affiche des performances supérieures à Gemini 2.5 Pro sur plusieurs benchmarks. Une sortie remarquée qui repositionne la Chine en tête de la course à l’IA générative.

Ming-Flash-Omni 2.0 ne fait pas dans la demi-mesure. Le modèle traite images, texte, audio et vidéo dans une seule architecture unifiée, et se permet même de générer du contenu sur tous ces fronts. Cela dit, la vraie nouveauté, c’est sa capacité de génération audio unifiée : parole, effets sonores ambiants et musique sur une seule piste, avec un contrôle fin des paramètres vocaux (timbre, vitesse, intonation, volume, émotion, dialecte) via des instructions en langage naturel.

Le modèle atteint une fréquence d’inférence de 3,1 Hz, ce qui permet une génération temps réel haute-fidélité d’audio d’une minute tout en gardant les coûts sous contrôle. Il supporte également le clonage vocal zero-shot et diverses options de personnalisation.

Zhou Jun, responsable de l’équipe du modèle Bai Ling chez Ant Group, résume l’approche : « La clé de la technologie multimodale réside dans la réalisation d’une intégration profonde grâce à une architecture unifiée. Après la mise en open source, les développeurs pourront réutiliser les capacités visuelles, vocales et de génération sur la base du même framework, réduisant considérablement la complexité et le coût de l’intégration multi-modèles. »

Une architecture « sparse »

Basé sur Ling-2.0, Ming-Flash-Omni 2.0 utilise une architecture Mixture-of-Experts (MoE) avec environ 100 milliards de paramètres au total, mais seulement 6,1 milliards de paramètres actifs par jeton. Cette approche sparse permet d’accéder aux capacités visuelles, vocales et de génération dans un seul framework, réduisant drastiquement la complexité technique des approches traditionnelles multi-modèles.

Sur les benchmarks, les résultats sont solides : score de 0,90 sur GenEval (dépassant toutes les méthodes non-RL), 74,6 sur MVBench pour la compréhension vidéo, et des records établis sur les 12 benchmarks de reconnaissance vocale contextuelle (ContextASR). Le modèle surpasse (visiblement) Gemini 2.5 Pro sur certaines métriques de compréhension langage-vision et de génération d’images.

Open source et prêt à l’emploi

Les poids du modèle et le code d’inférence sont disponibles dès maintenant sur Hugging Face, ModelScope (plateforme chinoise de partage de modèles ML) et GitHub, ainsi que via la plateforme Ling Studio d’Ant Group. Cette troisième itération majeure de la série Ming-Omni marque l’engagement continu d’Ant Group vers l’intelligence artificielle générale.

Retour en haut