Les IA génératives se nourrissent de données, mais ces données ne sont jamais neutres, on ne vous apprend rien. Un récent billet de Red Hat rappelle que la majorité des grands modèles d’IA ont été entraînés presque exclusivement sur des textes en anglais, reflétant les valeurs et les références culturelles du monde occidental. Résultat : un risque de biais systémique, qui va bien au-delà des erreurs de traduction. Il s’agit d’une question d’alignement culturel et d’équité.
L’exemple est parlant : le jeu de données Common Crawl, utilisé dans l’entraînement de nombreux modèles, contient près de 46 % de documents en anglais, alors que moins de 20 % de la population mondiale parle cette langue. Les modèles comme GPT-3 d’OpenAI ou Llama 2 de Meta sont ainsi entraînés à plus de 90 % sur du contenu anglophone. En conséquence, leur façon de raisonner, d’expliquer et même d’humoriser (comme dans les fameux “blagues de papa”, allusion aux blagues prédictibles) est profondément marquée par une culture spécifique : celle des sociétés occidentales industrialisées et éduquées. Le message est clair : l’avenir de l’IA ne doit pas être une monoculture dominée par quelques géants et quelques langues.
Pour Red Hat, la solution se trouve dans l’open source. Plutôt que de réinventer la roue, les communautés locales peuvent s’appuyer sur des modèles ouverts existants (comme Llama) et les affiner avec leurs propres corpus linguistiques et culturels. Cette démarche, déjà visible avec le collectif africain Masakhane, qui développe des modèles de traitement automatique du langage pour des dizaines de langues locales, ou encore avec des projets de sauvegarde des langues autochtones au Canada et au Brésil, illustre comment l’open source peut devenir un vecteur de diversité.
L’enjeu dépasse la simple technique. Il s’agit aussi de souveraineté numérique : si un pays ou une communauté veut une IA qui respecte ses langues, ses valeurs et ses lois, il doit être en mesure de former et d’adapter ses propres modèles. L’open source permet précisément cette autonomie, tout en garantissant transparence et collaboration.
Red Hat met également en avant ses initiatives comme InstructLab ou l’AI Inference Server, conçues pour faciliter la participation de tous – chercheurs, entreprises, développeurs indépendants – à l’évolution des modèles. Traduction ? En multipliant les contributions et en diversifiant les jeux de données, on réduit mécaniquement les biais et on construit un écosystème plus inclusif… et moins prévisible ?
