Lucie, l'IA open source française

L’IA générative open source française LUCIE attendue à Open Source Experience 2024

LUCIE entend marquer un tournant pour l’IA européenne, grâce à des données d’entraînement 100 % transparentes et une approche communautaire. Pour ses fondateurs, le projet incarne une vision de l’innovation éthique et souveraine, essentielle à l’avenir de l’IA en Europe. Prochaine étape ? Le salon Open Source Experience le 4 décembre prochain. L’occasion de revenir sur un webinaire organisé récemment par plusieurs représentants du projet.

Le 1ᵉʳ webinaire dédié à LUCIE, le modèle d’intelligence artificielle (IA) générative open source, dont nous vous parlions dans cet article, a rassemblé plus de 100 participants issus de la communauté OpenLLM-France, du secteur numérique, des organismes de recherche et de l’industrie.

Animé par Michel-Marie Maudet (DG de LINAGORA), Bastien Masse (Class’Code) et Olivier Gouvert (LINAGORA), cet événement a mis en lumière les « avancées d’une initiative clé pour la souveraineté numérique ».

🎯 Les objectifs d’OpenLLM-France

Lancée à l’été 2023, l’initiative OpenLLM-France regroupe plus de 800 acteurs publics et privés : chercheurs, startups et entreprises en France et en Europe. Son ambition ? Créer des communs numériques pour l’IA générative, avec un accent particulier sur l’éducation, tout en garantissant la souveraineté des données.

Pour une intelligence artificielle au service de l’intelligence humaine

📚 Un modèle pour l’éducation

LUCIE s’intègre dans une initiative de l’État français visant à développer des modèles d’IA souverains et adaptés à des usages spécifiques comme l’éducation. Ce modèle sera entièrement open source, sous licence APACHE V2, avec des fonctionnalités clé comme :

  • Une grande stabilité,
  • Une compatibilité avec la protection des données,
  • Une documentation exhaustive.

📈 L’entraînement de LUCIE

Déployé sur le supercalculateur Jean Zay (GENCI), l’entraînement vise à traiter 3 000 milliards de tokens. Abordées en octobre dernier sur Linkedin, voici les étapes principales :

  1. Composition du dataset : un mélange multilingue comprenant 33 % d’anglais, 32,4 % de français, 15 % de code/mathématiques, et 20 % d’autres langues comme l’allemand, l’espagnol et l’italien.
  2. Filtrage des données : un tri rigoureux garantit des informations de haute qualité, tout en excluant les contenus redondants, erronés ou offensants.
  3. Parallélisme avancé : la méthode de parallélisme « 3D » optimise les ressources tout en actualisant les données en fin d’entraînement.
  4. Extension de la fenêtre contextuelle : capable de traiter jusqu’à 128 000 tokens, LUCIE est particulièrement adaptée aux cas d’usage comme le RAG (Retrieval-Augmented Generation).
  5. Instruction et alignement : une phase en deux étapes (fine-tuning et apprentissage par renforcement) affine les performances du modèle.

📅 Prochain rendez-vous : Open Source Experience

Ne manquez pas l’occasion de découvrir LUCIE lors de l’événement Open Source Experience :

Retour en haut