Zilliz, à l’origine de la base de données vectorielle Milvus, a annoncé jeudi la publication en open source de son modèle bilingue de mise en évidence sémantique, un outil d’IA conçu pour réduire considérablement les coûts de tokens et améliorer la qualité des réponses dans les applications de génération augmentée par récupération (RAG). Le modèle introduit un filtrage de pertinence au niveau de la phrase, permettant aux développeurs de supprimer le contenu de faible valeur des prompts avant de les envoyer aux grands modèles de langage.
Selon la documentation technique publiée par Zilliz, cette approche (open source) peut réduire l’utilisation de tokens de 70 à 80 % tout en améliorant simultanément la qualité des réponses.
Surlignage sémantique vs surlignage traditionnel : phrase par phrase plutôt que mot-clé
James Luan, vice-président de l’ingénierie chez Zilliz, explique : « Alors que les systèmes RAG passent en production, les équipes se heurtent à des limites très concrètes en termes de coûts et de qualité. Ce modèle offre aux développeurs un moyen pratique de réduire la taille des prompts et d’améliorer la précision des réponses sans avoir à retravailler leurs pipelines existants. »
Contrairement au surlignage traditionnel basé sur les mots-clés ou à la notation par segments, le modèle évalue la pertinence au niveau de la phrase, ne conservant que le contenu qui répond directement à la requête de l’utilisateur. Le système traite les requêtes via un pipeline qui attribue à chaque token un score de pertinence entre 0 et 1, puis agrège ces scores pour déterminer quelles phrases surligner et lesquelles filtrer.
Le modèle est construit comme un réseau encodeur uniquement de 0,6 milliard de paramètres basé sur l’architecture BGE-M3 Reranker v2, prenant en charge l’anglais et le chinois avec une fenêtre de contexte de 8 192 tokens. Zilliz a entraîné le modèle sur plus de 5 millions d’échantillons bilingues en utilisant Qwen3 8B pour l’annotation, en mettant l’accent sur ce que l’entreprise appelle le « raisonnement LLM » : le modèle d’annotation doit fournir des explications pour chaque étiquette de pertinence.
Dans les tests de référence effectués sur plusieurs ensembles de données, Zilliz rapporte que le modèle atteint des performances de pointe en anglais comme en chinois, surpassant des solutions alternatives comme la série XProvence de Naver et le semantic-highlighter d’OpenSearch.
Cette version intervient alors que les entreprises sont confrontées à une hausse des coûts d’inférence et à des problèmes de précision dans leurs déploiements RAG en production. Des recherches ont montré que même les modèles disposant de fenêtres de contexte massives connaissent une dégradation des performances à mesure que la taille du contexte augmente, avec une précision de récupération qui chute fortement au-delà de certains seuils.
L’approche par surlignage sémantique vise à résoudre ce problème en s’assurant que seul le contenu pertinent parvient au LLM. Au-delà des économies de coûts, Zilliz met l’accent sur des capacités de débogage améliorées : les ingénieurs peuvent inspecter les correspondances au niveau des phrases directement plutôt que de traiter le processus de récupération comme une boîte noire.
Open source, le modèle est disponible sous licence MIT sur Hugging Face.
Installation :
pip install transformers torch
Détails techniques :
- Licence : MIT (usage commercial autorisé)
- Architecture : modèle encodeur de 0,6 milliard de paramètres basé sur BGE-M3 Reranker v2
- Fenêtre de contexte : 8 192 tokens
- Langues disponibles actuellement : anglais et chinois
