C’est un secret de polichinelle dans le monde de l’IA : les modèles de langage actuels, de ChatGPT à Gemini, parlent une langue de tokens étrange. Ces « sous-mots » (comme ▁inter, national, ou ization) sont censés optimiser le calcul, mais ils introduisent un biais structurel majeur contre les langues moins représentées, notamment le français. La solution s’appelle Bolmo et elle est open source.
L’Allen Institute for AI (Ai2), a peut-être trouvé la solution pour l’ensemble de la Francophonie (mais aussi d’autres groupes linguistiques dans le monde). L’institut vient de dévoiler Bolmo, une nouvelle famille de modèles de langage open source qui abandonne la tokenisation par sous-mots pour fonctionner directement au niveau de l’octet (byte-level).
Tokenisation : de quoi on parle ?
La tokenisation est l’étape initiale et la plus critique du traitement du langage par l’IA. Pour simplifier, c’est le processus par lequel un texte est découpé en unités de base appelées « tokens » (jetons) afin que le modèle puisse le traiter mathématiquement. Les modèles traditionnels utilisent une tokenisation par sous-mots, coupant les mots en morceaux (comme ‘▁inter’, ‘national’). Ce système, bien qu’efficace pour gérer de vastes vocabulaires, introduit un biais majeur : le découpage est souvent optimisé pour l’anglais. Conséquence pour le français : les mots sont parfois découpés maladroitement, ce qui peut nuire à la précision et à la compréhension des accents, des apostrophes et des néologismes. C’est ce défaut que Bolmo, en passant au niveau de l’octet, cherche à corriger.
Le problème : quand l’IA ne sait pas parler français
La tokenisation traditionnelle, bien que performante, souffre de défauts critiques. Le premier ? Les mots rares, les néologismes ou les fautes d’orthographe (courantes sur le web) sont mal gérés. De plus, le vocabulaire des tokens est majoritairement calibré sur l’anglais, pénalisant les langues aux structures différentes. Les accents, la ponctuation et le traitement des espaces blancs deviennent des casse-têtes.
Bolmo contourne ce problème en opérant directement sur les octets UTF-8. Il n’a besoin d’aucun vocabulaire pré-établi, ce qui « débloque une meilleure gestion de l’orthographe, des cas limites et du texte multilingue« .

Bolmo : une IA performante et flexible
Ai2 a pris une approche intelligente pour créer Bolmo. Au lieu de repartir de zéro, ce qui est extrêmement coûteux, les chercheurs ont « octétisé » leurs modèles Olmo 3 existants.
Le résultat est frappant, visiblement. Bolmo 7B se montre compétitif avec les meilleurs modèles par sous-mots sur les tâches générales, mais il les surpasse de près de vingt points sur les tests axés sur le niveau des caractères (comme CUTE et EXECUTE). C’est là que la gestion fine des accents, des apostrophes et des césures en français fait la différence. Malgré le fait que les modèles par octet sont souvent lents, l’architecture dynamique de Bolmo lui permet d’atteindre des vitesses de décodage compétitives, rendant son déploiement pratique.
L’architecture est entièrement open source (licence Apache-2.0) et l’institut a publié le code source, le rapport technique ainsi que les checkpoints (Télécharger Bolmo 1B), s’engageant à offrir une solution reproductible pour la communauté. C’est une avancée majeure qui pourrait enfin permettre aux développeurs francophones de créer des IA adaptées à leurs besoins, sans être bridés par un modèle de langage initialement pensé pour l’anglais.
