Vue d'ensemble de la cour du campus de l'Université de Yale à New Haven sous un ciel bleu, avec des bâtiments en pierre de style gothique et des étudiants assis sur la pelouse.

IA et Open Source : la fin du pillage de code grâce au copyleft de Yale ?

Vous en avez (vous aussi) assez de voir vos dépôts GitHub pillés par des modèles d’IA fermés ? Des chercheurs de Yale proposent la licence CCAI : un « copyleft » étendu qui force les IA à dévoiler leurs données et architectures. Explications.

L’histoire du logiciel libre s’est construite sur un principe d’équité : si vous utilisez et améliorez le travail de la communauté, vous devez partager vos modifications sous les mêmes conditions. Pourtant, l’avènement de l’intelligence artificielle générative a brisé ce contrat moral et technique. Les géants de la Tech entraînent massivement leurs modèles propriétaires sur des dépôts de code publics sans jamais offrir en retour la transparence attendue par les contributeurs.

Face à ce constat de pillage unilatéral, des chercheurs du Digital Ethics Center (DEC) de l’Université de Yale viennent de poser les bases d’une riposte juridique. Ils proposent un tout nouveau cadre de licence baptisé Contextual Copyleft AI License (CCAI). Son but ? Contraindre les développeurs d’IA à rendre publiques l’architecture et les données d’entraînement de leurs modèles dès lors qu’ils se nourrissent de code open source.

Le modèle d’IA qualifié d’œuvre dérivée

Publiée dans l’International Journal of Law and Information Technology édité par Oxford, l’étude jette un pavé dans la mare du droit d’auteur. Les licences copyleft traditionnelles, à l’instar de la GNU General Public License (GPL), imposent que toute œuvre dérivée d’un logiciel libre reste elle-même ouverte. La subtilité de la licence CCAI est d’étendre cette qualification légale aux artefacts de l’IA.

Dans ce cadre, les chercheurs considèrent qu’un modèle d’IA générative entraîné sur du code open source constitue, par nature, une œuvre dérivée des données injectées en entrée. Par conséquent, cette classification impose des obligations de divulgation réciproques et strictes.

Comparaison des approches de licences libres

Caractéristique Copyleft Traditionnel (ex: GPL) Copyleft Contextuel pour l’IA (CCAI)
Cible principale Le code source du logiciel et ses modifications directes Les artefacts du modèle (architecture, données d’entraînement)
Déclencheur de l’obligation La distribution ou modification du code L’entraînement du modèle sur des données protégées
Qualification juridique Œuvre dérivée logicielle standard Modèle classifié comme œuvre dérivée du code source d’entrée
Objectif de transparence Accessibilité du code source Transparence absolue et lutte contre l’open-washing

Reprendre le contrôle face à l’open-washing

L’un des coauteurs de l’étude, Claudio Novelli, chercheur associé au DEC, résume sans détour la situation actuelle :

« Les entreprises d’IA ont largement profité de l’utilisation du code open source, mais les modèles qui en résultent ne sont pas réellement ouverts. Elles se montrent parfois transparentes sur certains aspects, mais les composants clés restent fermés ».

Cette opacité orchestrée porte un nom : l’open-washing, une pratique trompeuse qui consiste à draper un produit propriétaire sous des dehors communautaires. La licence CCAI vise précisément à enrayer ce phénomène en garantissant aux développeurs un droit de regard et un contrôle réel sur l’exploitation de leurs lignes de code. En forçant le partage des jeux de données d’entraînement, elle permettrait à la communauté open source de concevoir des modèles véritablement ouverts et compétitifs, inaccessibles aux acteurs refusant la réciprocité.

Les défis d’un cadre encore théorique

L’étude, menée conjointement par Grant Shanklin, Emmie Hine, Claudio Novelli, Tyler Schroder et le professeur Luciano Floridi, démontre la faisabilité juridique de l’approche au regard du droit d’auteur actuel. Il existe toutefois une condition sine qua non : que l’entraînement des modèles ne soit pas systématiquement requalifié en fair use (usage loyal) par les tribunaux américains, une doctrine qui exempte de licence l’utilisation d’œuvres protégées dans des contextes spécifiques.

De plus, l’IA générative affiche un profil de risque plus élevé que le logiciel traditionnel puisqu’elle peut être directement détournée pour générer du contenu malveillant ou du phishing ciblé. Les chercheurs rappellent ainsi que l’application de la licence CCAI devra s’articuler avec des réglementations responsables de l’IA, à l’image des garde-fous instaurés par l’Union européenne contre les techniques manipulatrices.

Pour l’heure, aucun texte juridique finalisé n’a été publié et aucune jurisprudence ne vient appuyer cette classification. Le succès de la CCAI dépendra de sa capacité à résister aux futures contestations judiciaires et, surtout, de son adoption par les projets open source majeurs et les plateformes de forge logicielle à l’échelle mondiale. L’annonce officielle détaillée est disponible sur le site de Yale News, et les fondements de la recherche sont accessibles via l’International Journal of Law and Information Technology.

🦋 L’actualité de l’open source en français dans votre flux. Suivez Goodtech sur Bluesky (ou vos applications AT Protocol comme W Social et Mu) grâce à notre compte officiel. Suivez, partagez, abonnez-vous à @goodtech.info !

Retour en haut