IA

Pour une intelligence artificielle au service de l’intelligence humaine

Ce n’est pas en cherchant à perfectionner la bougie qu’on a inventé l’électricité. Personne n’imaginait qu’elle permettrait tout à la fois à des respirateurs de maintenir les gens en vie comme à une chaise de priver de la leur des condamnés à mort.

Ce texte est une tribune de Michel-Marie Maudet, cofondateur de Linagora et faciliteur auprès d’OpenLLM France.

Les grandes découvertes ne se préoccupent pas toujours des usages, ce sont ceux qui s’en emparent qui en font le succès, pour le meilleur et pour le pire. Il serait cependant fallacieux de penser que la responsabilité du meilleur et du pire incombe aux seuls utilisateurs. Comme le rappelaient les philosophes Thomas Berns et Antoinette Rouvroy : “Les technologies sont, dès leurs conceptions, porteuses des visions du monde, attentes et projections conscientes ou inconscientes de leurs concepteurs” (2013).

Il en va de l’intelligence artificielle comme de l’électricité, nous ne savons pas encore jusqu’où et comment elle bouleversera nos vies, mais nous sommes déjà sûrs qu’elle aura un impact majeur aussi bien à l’échelle individuelle que collective, dans la sphère personnelle, comme dans la vie publique, au point de transformer notre civilisation.

Comme Internet avant elle, l’intelligence artificielle va encore décupler les connexions entre les êtres humains et passer à l’échelle leur capacité à coopérer au service du bien commun. C’est une formidable opportunité pour accélérer la transition écologique et la cohésion sociale.

En tant qu’entrepreneurs, nous sommes enthousiastes devant l’immense champ d’innovation qui s’ouvre et dont nous entendons bien nous saisir. Mais nous sommes aussi des acteurs économiques engagés, conscients de notre responsabilité vis-à-vis de nos clients, de nos salariés, et de toutes nos parties prenantes.

Les problématiques posées par l’arrivée de l’IA dans nos vies dépassent le simple cadre technique et technologique. Des questions d’ordre politique, économique, sociologique, idéologique ou encore philosophique s’imposent à nous – et il nous semble que c’est notre rôle d’entrepreneurs de les saisir à bras-le-corps et d’ouvrir le débat sur la présence de l’IA dans notre quotidien.

C’est la raison pour laquelle, sans attendre l’entrée en vigueur d’une grande législation européenne sur l’IA, il nous semble nécessaire de répondre d’ores et déjà à quelques questions simples de nature à éclairer nos actions.

1 – Comment nous assurer que l’intelligence artificielle est inclusive, équitable et non discriminatoire?

Parce que l’intelligence artificielle est génératrice de biais, nos équipes sont mixtes et diverses pour enrichir la connaissance de savoirs et savoir-faire issus d’environnements et de cultures multiples. Nous formons nos équipes, notamment nos équipes de développement, pour qu’elles comprennent les implications éthiques et les risques de leurs travaux.

Mais est-ce suffisant ?

Selon nous, la seule solution pour que l’IA soit inclusive, équitable et non discriminatoire est qu’elle soit basée sur des communs numériques maîtrisés, transparents et de confiance.

Les modèles fermés et « Open Source » actuels du marché n’apportent pas ces garanties.

En premier lieu, il faut que les artéfacts d’IA sont réellement Open Source à commencer par la publication intégrale sous licence libre des jeux de données d’apprentissage.

Les modèles « Open Weights » actuels (Llama, Falcon et Mistral) à poids ouverts ne peuvent répondre en l’état aux exigences liées au « High Risks » de l’IA Act mais aussi à certaines contraintes du DSA qui s’imposeront aux fournisseurs de services exploitant des LLM (cas de Wikipedia).

Par ailleurs, ces modèles deviennent avec le temps une représentation digitale de notre société. Elle doit donc par définition offrir une représentation la plus fidèle de nos valeurs, de notre culture, de notre langue (et langues de nos territoires) mais aussi de notre diversité.

Dans le modèle Llama, la langue française représente 0,16 % de la totalité des jeux de données d’apprentissage. Pour Falcon et Mistral, nous ne disposons pas même à ce jour (janvier 2024) des éléments factuels pour évaluer notre représentativité dans ces modèles.

Ainsi, il est nécessaire de maîtriser que donc que la France se dote à minima d’un LLM multimodal fondation ouvert. C’est l’ambition du collectif OpenLLM France, qui collabore dès à présent avec les comités Alliance et LangIA afin mettre à disposition des modèles transparents et de confiance.

2 – Comment mettre l’intelligence artificielle au service des droits fondamentaux des individus?

Nous mettons en œuvre tous les moyens pour garantir le respect de la vie privée, la liberté d’expression et la sécurité des individus. Nous sommes attentifs à la sécurité et la fiabilité de nos systèmes pour éviter les défaillances qui pourraient les affecter.

Mais est-ce suffisant ?

Les modèles fermés et « Open Source » actuels du marché ne respectent pas nos règlementations actuelles (RGPD, propriété intellectuelle…) et n’anticipent les exigences de l’IA Act à venir.

En premier lieu, il faut que les modèles soient entraînés à partir de jeux de données « blanches » d’apprentissage c’est-à-dire collectés de manière éthique, responsable, équitable et que ces jeux de données soient publiés sous licence libre permettant l’audit complet et l’évaluation.

Ensuite, même si le producteur de modèle doit s’assurer de sa compliance, il n’est pas forcément aisément de garantir à 100 % l’intégrité des données compte tenu des volumes nécessaires à l’entraînement.

Ainsi, les applications exploitant ces modèles d’IA doivent systématiquement proposer des mécanismes de notification et de « opt out » permettant à l’utilisateur de signaler tout atteinte au respect de la vie privée ou problème liés à l’exploitation de données sous licence et droits.

Enfin, le fait de miser sur la construction de modèle sobres et compacts, facilitera une meilleure réactivité au producteur pour « corriger » ou améliorer ses modèles en utilisant par exemple des « continual pre training ».

3 – Comment tracer les sources et les itinéraires de la connaissance que nous utilisons?

Avec l’intelligence artificielle générative, rien ne ressemble plus à la vérité qu’une information plausible, mais erronée. Nous préférons les IA qui citent leurs sources et expliquent leurs décisions, en particulier si celles-ci ont un impact sur les droits des individus.

Nous aidons nos utilisateurs à développer leur esprit critique et nous mettons à leur disposition les experts ou les systèmes susceptibles de valider, ou d’invalider une information.

Mais est-ce suffisant ?

L’identification des sources et les itinéraires de la connaissance doivent selon nous être un argument supplémentaire pour exiger que les modèles soient entraînés à partir de jeux de données « blanches » d’apprentissage, c’est-à-dire collectés de manière éthique, responsable, équitable et que ces datasets soient publiés sous licence libre permettant l’audit complet et l’évaluation.

Lors des échanges au sujet de l’IA Act est apparu la nécessité d’utiliser des mécanismes de « wartermark » ou filigrane. En premier, pour « marquer » des contenus synthétiques générés par des IA. Mais l’industriel dont Google qui compte aussi insérer des métadonnées et « d’autres techniques innovantes pour promouvoir une information digne de confiance ».

Le consortium OpenLLM France va collaborer par exemple avec Alexei GRINBAUM du CEA List sur l’opérationnalisation de l’IA Act concrète des modèles. Le sujet de la traçabilité de la donnée source est d’ores et déjà intégré dans les travaux en cours de réalisation et font l’objet d’une demande de financement dans le cadre de l’AAP Communs Numériques dans le domaine de l’IA Générative.

4 – Comment faire pour que l’intelligence artificielle respecte les auteurs des contenus qu’elle utilise?

L’intelligence artificielle ne produit pas réellement de la connaissance, elle utilise tous les savoirs humains échangés, elle les relie et les organise. Pour bien nous en servir, il nous importe d’associer un contenu et son auteur, et de nous assurer de son consentement. Nous voulons privilégier les outils qui relient les humains et reconnaissent le bénéfice de leur contribution à la connaissance partagée.

Mais est-ce suffisant ?

C’est selon moi, c’est moins le sujet du respect du droit d’auteur, que la façon de rémunérer les œuvres et médias qui sont utilisés lors de l’entraînement ou lors de l’utilisation des modèles pour en fiabiliser leur réponse.

A ce stade, les représentants des ayants droits (Sacem, Syndicat national de l’édition, Société des auteurs dans les arts graphiques et plastiques, Syndicat des éditeurs de la presse magazine…) et les auteurs eux-mêmes sont dans la phase d’appropriation, de découverte et donc leur position officielle est actuellement très réservée.

Les fournisseurs de données comme l’INA, la BNF, Radio France sont pour le moment sur le champ du juridique uniquement ce qui retarde l’exploitation de certains médias qui pourraient être très utiles pour disposer de la représentation la plus proche de notre quotidien. En cela LanguIA, toute jeune initiative lancée dans le prolongement de Viller Cotteret est à suivre de près.

Mais globalement, selon nous, si l’on considère le principe de l’entraînement sur des données blanches récoltées de manière responsable (y compris après accord financier avec l’auteur et la société qui le représente), c’est un sujet qui pourrait avancer positivement dans les prochains mois.

5 – Comment utiliser l’intelligence artificielle au service de la transition écologique et de la cohésion sociale?

Les ruptures technologiques sont source d’accélération et donc de productivité. Nous mettons à profit celles que permet l’intelligence artificielle pour gagner du temps sur tous les projets qui contribuent à la transition écologique et énergétique et à la cohésion sociale.

Bien évidemment, nous nous engageons à collaborer pro-activement avec les autorités de régulation, les représentants de la société civile et de la recherche scientifique, les citoyens et les utilisateurs de nos offres.

Mais est-ce suffisant ?

Si on souhaite que l’IA soit au service de la transition écologique et de la cohésion sociale, il faut que son producteur respecte soi-même ces prérogatives.

Sur la cohésion sociale et l’acceptation de l’IA pour tous, la transparence et la maîtrise en retenant une approche souveraine est indispensable. C’est en cela que l’approche OpenLLM France se différencie de l’ensemble des autres initiatives et des acteurs.

Sur la transition écologique, il est indéniable que l’entrainement et l’usage de technologies d’IA sont très impactantes sur l’environnement.

La taille de modèle affecte directement l’environnement : ainsi, si l’on souhaite diminuer drastiquement notre impact, sortons de la course aux grands modèles et privilégiés les SLM (Small Langage Models).

Par conséquent, il faut tout miser sur des modèles sobres, compacts… et frugaux en termes de données d’apprentissage.

Il faut aussi développer une écologie de la donnée responsable, équitable et durable qui passe nécessaire par la transparence et donc la publication des données d’apprentissage.

Moins de données, mais des données plus qualifiées et de meilleure qualité. Ainsi on reboucle avec la problématique du financement des auteurs : on aura toujours besoin de plus en plus de données de qualité générées par des humains.

Enfin, en termes de stratégie nationale, il faut se concentrer sur un nombre limité de producteur de modèle (car très énergivore pour le pré-entrainement) et favoriser l’utilisation de modèles ne dépendant pas des GPU coûteuses et énergivores lors de l’utilisation (inférence) du modèle.

Tout en reconnaissant que nous n’avons pas toutes les réponses, et que seule la force de l’intelligence collective nous permettra de faire avancer la discussion, nous appelons tous les entrepreneurs à s’entraider pour répondre à ces questions. Merci à tous ceux qui nous ont déjà adressé leurs réactions, leurs témoignages, questions et commentaires — c’est ensemble que nous pourrons réellement nourrir une réflexion.

Poursuivons les échanges afin d’aboutir à un texte que nous pourrons actionner et faire actionner — ces quelques pages ne sont qu’une première étape. Le débat est ouvert, nourrissez-le.

Rendez-vous sur le site OpenLLM France.

Michel-Marie Maudet, DG et cofondateur de Linagora.

Retour en haut