Dans le monde de l’IA, il y a ceux qui gardent leurs secrets de cuisine bien gardés et ceux qui publient… le livre de recettes complet. Ainsi, Tencent Hunyuan, en collaboration avec l’UCLA et l’Université chinoise de Hong Kong, a choisi son camp en publiant OpenSearch-VL.Il ne s’agit pas d’un simple modèle de plus, mais d’une « recette » open source complète pour entraîner des agents de recherche multimodaux capables de rivaliser avec les systèmes fermés d’OpenAI ou de Google.
En clair : tout le monde peut désormais reproduire un agent de « Deep Research » (recherche approfondie) digne des plus grands.
Le chaînon manquant de la recherche IA
Jusqu’à présent, si les capacités de recherche multimodale (analyser une image, fouiller le web, extraire du texte complexe) étaient impressionnantes chez les géants du logiciel, les méthodes d’entraînement restaient opaques. OpenSearch-VL vient combler ce vide.
Le framework repose sur les modèles de base Qwen3-VL (déclinés en 8B, 30B et 32B) et apporte trois innovations majeures qui vont faire le bonheur des développeurs. Tout d’abord, un pipeline de curation de données qui génère des questions complexes en s’appuyant sur Wikipédia. Ensuite, un environnement d’outils ultra-complet permettant à l’agent de recadrer des images, de faire de l’OCR (reconnaissance de texte) ou d’améliorer la résolution visuelle avant d’analyser. Enfin, un algorithme d’apprentissage par renforcement baptisé « multi-turn fatal-aware GRPO », conçu pour que l’IA ne perde pas les pédales lorsqu’un outil échoue au milieu d’une recherche longue.
Des performances qui défient les systèmes propriétaires
Les résultats publiés par les chercheurs sont sans appel. Avec une amélioration moyenne de plus de 10 points de pourcentage sur sept benchmarks de référence (comme SimpleVQA ou InfoSeek), OpenSearch-VL prouve que l’open source n’a plus rien à envier au propriétaire. La version 32B parvient même à surpasser des modèles comme Gemini-2.5-Pro dans des contextes de raisonnement direct.
Comparaison des performances moyennes (benchmarks)
| Modèle / Framework | Score moyen (7 benchmarks) | Statut |
| OpenSearch-VL-32B | 63,7 | Open Source (Apache 2.0) |
| Systèmes propriétaires (Type Gemini-2.5) | Équivalent ou inférieur sur raisonnement direct | Fermé / SaaS |
| Baselines classiques | ~53,0 | Ouvert |
Cette publication s’inscrit dans une offensive globale de Tencent pour devenir l’un des maîtres asiatiques de l’IA ouverte. Après avoir dévoilé son modèle Hy3 plus tôt cette année et rendu open source des modèles compacts pour appareils embarqués, l’entreprise chinoise positionne OpenSearch-VL sur GitHub comme le nouveau standard communautaire. Ce que l’on comprend ? Plutôt que de vendre un abonnement à un chatbot, Tencent offre l’infrastructure pour que chaque entreprise crée son propre expert en recherche approfondie.
