Mozilla Data Collective veut (re)bâtir l’écosystème des données IA avec les communautés

En septembre, Mozilla franchira une nouvelle étape dans son engagement pour une intelligence artificielle plus ouverte et plus éthique avec le lancement de Mozilla Data Collective. Présentée comme la « sœur » de l’initiative Common Voice, cette plateforme veut redonner aux communautés le contrôle sur la collecte, la licence et le partage des jeux de données.

Depuis 2017, Common Voice a permis de constituer l’un des plus grands corpus de voix libres au monde, largement utilisé pour entraîner des modèles de reconnaissance vocale. Mais l’initiative a aussi révélé une attente plus large : permettre à d’autres communautés de partager leurs propres donnée (qu’on parle de textes, d’images ou d’informations contextuelles), tout en gardant la main sur leur gouvernance et leur licence.

Mozilla Data Collective entend répondre à cette demande. La plateforme accueillera désormais l’ensemble des jeux de données Common Voice, mais ira plus loin en ouvrant ses portes à des contributions externes. Les membres de la communauté peuvent déjà proposer un jeu de données via un formulaire de nomination.

Une plateforme ouverte, transparente et éthique

Disponible dès septembre en version alpha, Mozilla Data Collective se présente comme un écosystème de données pour l’IA construit « par et pour la communauté ». Plus de 300 jeux de données mondiaux y seront accessibles, sous des licences ouvertes et avec une gouvernance transparente.

Le projet vise à contrer deux dérives constatées dans l’IA actuelle : la concentration des données entre les mains de quelques géants du numérique et l’absence de transparence sur leur provenance. En permettant aux communautés de décider elles-mêmes des conditions d’usage de leurs données, Mozilla veut rééquilibrer le rapport de force et poser les bases d’un modèle plus équitable. Comme l’explique Mozilla, « vos données restent entre de bonnes mains : les vôtres ». En plaçant la communauté au centre, Data Collective veut démontrer qu’il est possible de bâtir un écosystème de données éthique et durable, au service de la recherche et de l’innovation, sans sacrifier la confiance.

Le site officiel du projet est déjà en ligne : datacollective.mozillafoundation.org. Le compte à rebours est lancé pour un lancement prévu en septembre 2025.

Retour en haut