Face à l’intelligence artificielle, l’Afrique reste encore un peu le « continent oublié » des grands modèles de langage. Pourtant, la startup française Pleias et la GSMA viennent de briser ce plafond de verre avec le lancement de CommonLingua. Ce modèle d’identification de langues (LID) open source est une petite prouesse technologique : il est capable de reconnaître avec une précision chirurgicale 61 langues africaines (et 334 langues au total) tout en ne pesant que 8 Mo.
C’est le premier livrable concret de l’initiative « Modèles de langage IA en Afrique, par l’Afrique, pour l’Afrique » lancée en 2025.
Petit par la taille, géant par l’impact
Ne vous fiez pas à ses 2 millions de paramètres. Si CommonLingua est ultra-compact, c’est pour pouvoir être déployé partout, même sur les infrastructures les plus modestes ou directement sur smartphone. Selon la GSMA, il surpasse pourtant des systèmes 300 fois plus grands.
Techniquement, CommonLingua travaille au niveau de l’octet (byte-level). Contrairement aux modèles classiques, il n’utilise pas de « tokenizer » (qui segmente les mots), ce qui élimine d’emblée tout biais en faveur des langues occidentales mieux représentées. Peu importe s’il s’agit de langues bantoues, nilo-sahariennes ou berbères, le modèle traite chaque script avec la même équité.
Pourquoi l’identification est le « verrou » de l’IA
Comme l’explique Pleias dans son blog, l’identification est la première étape cruciale de toute chaîne de traitement de données. Si un système se trompe sur la langue d’un texte, tout ce qui suit (le filtrage, le nettoyage et l’entraînement de l’IA) est corrompu.
Jusqu’ici, les outils existants étaient particulièrement médiocres pour les langues africaines, entraînant souvent la suppression pure et simple de contenus précieux, considérés à tort comme du « bruit » numérique. En réglant ce problème de détection, CommonLingua ouvre la porte à la création de futurs jeux de données de haute qualité pour la santé, l’éducation et les services publics sur le continent.

Une alliance historique pour la souveraineté numérique
Le projet est le fruit d’une collaboration inédite regroupant six des plus grands opérateurs mobiles africains (Orange, MTN, Airtel, etc.) et des hubs de recherche locaux comme Lelapa AI. Cette union sacrée vise à réduire la fracture numérique dans une région où seulement 27 % de la population utilise l’internet mobile, souvent faute de contenus dans leur langue maternelle.
Fidèle à ses engagements, Pleias a publié le modèle sous licence Apache 2.0 sur Hugging Face, accompagné de son jeu de données d’entraînement issu du projet Common Corpus. Tout est auditable, traçable et réutilisable par la communauté mondiale pour que l’IA ne parle plus seulement l’anglais, mais le monde entier.
