Lors du lancement de GitHub Copilot en 2021, une crainte a secoué la communauté du logiciel libre : si une IA est entraînée sur du code sous licence GPL (General Public License), le modèle d’IA lui-même devient-il une œuvre dérivée, forçant sa distribution sous la même licence stricte ? En 2025, la poussière semblait retombée, l’industrie ayant tacitement accepté le statu quo. Pourtant, une analyse juridique fouillée de Shuji Sado démontre que cette théorie de la « propagation » est juridiquement plus vivante que jamais. Nous l’avons lue pour vous.
L’illusion de sécurité dans laquelle baignent les développeurs et les entreprises pourrait bien se dissiper brutalement. Contrairement à la croyance populaire, aucun tribunal n’a encore validé l’idée que l’entraînement d’une IA sur du code open source constitue un simple « usage équitable » (Fair Use) ou une exception de fouille de données (TDM) sans condition.
Qui est Shuji Sado ? Shuji Sado (Open Source Guy) est un expert japonais reconnu du logiciel libre et de la propriété intellectuelle. Il est notamment très impliqué auprès de l’Open Source Initiative (OSI).
Deux procès : le doute susbiste
L’analyse de Shuji Sado met en lumière deux épées de Damoclès judiciaires qui, en cette fin d’année 2025, empêchent de clore le débat.
D’un côté, aux États-Unis, l’action collective Doe v. GitHub piétine mais ne meurt pas. Si le tribunal a rejeté certaines plaintes périphériques, il a maintenu le cœur du réacteur : l’accusation de violation de licence. Les plaignants soutiennent que Microsoft et OpenAI ont ignoré les obligations d’attribution et de partage des licences open source. Le tribunal a confirmé que l’utilisation de code open source s’accompagne d’obligations, et que fournir des outils qui les ignorent pourrait constituer un tort.
De l’autre, en Europe, un jugement du tribunal de Munich rendu en novembre 2025 dans l’affaire GEMA v. OpenAI change la donne. Bien que portant sur des paroles de chansons (et non du code), la cour a statué que la « mémoire » des données d’entraînement au sein du modèle constitue une reproduction au sens du droit d’auteur. En clair : si le modèle peut recracher le contenu original (ce qu’on appelle l’overfitting), il contient une copie de l’œuvre. Transposé au code : si ChatGPT recrache une fonction GPL complexe, il contient du code GPL. Et la licence devrait s’appliquer.
Le cauchemar de la conformité impossible
Si la justice finissait par valider la thèse de la propagation de la GPL, les conséquences pour l’industrie de l’IA seraient cataclysmiques. Shuji Sado soulève un point pragmatique effrayant, mais passionnant à nos yeux : l’impossibilité mathématique de la conformité.
Un modèle d’IA typique est entraîné sur des millions de dépôts. Si la licence de chaque dépôt se propage au modèle, ce dernier se retrouverait régi simultanément par la GPL v2, la GPL v3, la licence Apache, la licence MIT, et des licences propriétaires. Or, certaines de ces licences sont mutuellement incompatibles. Il serait impossible de distribuer le modèle légalement.
La réaction probable des géants de l’IA ne serait pas d’ouvrir leurs modèles, mais d’exclure purement et simplement tout code GPL des données d’entraînement. Ironie du sort : la licence conçue pour protéger la liberté du logiciel pourrait finir par exclure le logiciel libre de la plus grande révolution technologique de la décennie, laissant l’IA apprendre uniquement sur du code permissif (MIT/Apache) ou propriétaire.
