Avec Wikidata Embedding, Wikipédia veut apprendre la fiabilité aux IA

Wikimedia Deutschland vient de lancer Wikidata Embedding, une base de données vectorielle open source qui rend les 120 millions d’entrées de Wikidata exploitables directement par les modèles d’intelligence artificielle. Objectif : offrir aux développeurs une alternative transparente et vérifiable aux ensembles opaques qui alimentent ChatGPT, Gemini ou Claude. Explications.

Cette fois, Wikipédia se met au service des IA. L’annonce a été faite par Wikimedia Deutschland : pour la première fois, les données de Wikidata — la gigantesque base collaborative qui complète et enrichit Wikipédia — sont disponibles sous forme de vecteurs, ce qui les rend utilisables par les modèles d’IA générative. Jusqu’ici, ces systèmes s’appuyaient sur des ensembles de données fermés, difficilement auditables, ce qui posait de sérieux problèmes de fiabilité. Avec Wikidata Embedding, l’IA peut interroger directement une base de connaissances structurée, ouverte et constamment mise à jour par plus de 24 000 bénévoles.

Une passerelle vers l’IA open source

Techniquement, l’initiative s’appuie sur une base vectorielle qui transforme les données en coordonnées numériques décrivant les relations entre concepts. Couplée au Model Context Protocol (MCP), cette approche permet aux modèles de langage d’intégrer les données de Wikidata via des méthodes de Retrieval Augmented Generation (RAG).

Concrètement, cela veut dire que des IA peuvent aller chercher une information validée et sourcée, l’intégrer en temps réel et produire des réponses plus fiables. Les résultats sont également multilingues (anglais, français, arabe pour commencer, bientôt espagnol et mandarin) et classés par pertinence grâce à un reranker entraîné par un LLM spécialisé. Au-delà des usages dans la recherche et le journalisme, la démarche pourrait aussi inspirer de nouveaux outils de fact-checking, ou encore contribuer à réduire le phénomène des “hallucinations” des modèles de langage.

L’initiative ne s’adresse pas qu’aux géants de l’IA. Elle vise aussi les développeurs indépendants et les communautés open source, souvent privées de ressources pour traiter de grands ensembles de données. Avec Wikidata Embedding, elles disposent désormais d’un accès direct aux données de Wikipédia, librement réutilisables.

Les partenaires techniques incluent Jina AI, qui fournit le système d’embedding, et DataStax, dont la base de données vectorielle Astra DB stocke les données.

En proposant une alternative ouverte et vérifiable, Wikimedia veut rappeler que l’intelligence artificielle peut se construire autrement qu’à partir de corpus opaques contrôlés par les Big Tech avec, bien souvent, des biais culturels américains, comme nous l’évoquions dans cet article.

L’ensemble est librement accessible en ligne, et Wikimedia organise un webinaire pour développeurs le 9 octobre prochain.

Retour en haut