Développement

OpenLLM France dévoile son premier modèle ouvert, Claire

• Bookmarks: 23


La communauté OpenLLM France vient de publier le premier modèle ouvert LLM Claire sur Hugging Face. Il est particulièrement adapté au traitement de données résultants de dialogues en français. Voici ce qu’il faut retenir de cette annonce imporante.

Nous vous parlions récemment de la création de la communauté OpenLLM France. Ce consortium, fondé l’été dernier, réunit 17 acteurs et fédère déjà un écosystème de près de 200 entités (laboratoires publics de recherche, fournisseurs potentiels de données, acteurs technologiques spécialisés, fournisseurs de cas d’usage).

Les travaux vont bon train depuis les premières annonces. La publication du premier modèle LLM ouvert est effective et répond au ravissant prénom de Claire. La version Claire-7B-0.1 vient d’ailleurs d’être dévoilée en début de semaine.

Les données d’apprentissage sélectionnées pour cette première édition sont des données conversationnelles en français disponibles sous licence ouverte. Elles sont soit issues des travaux de constitution de corpus adaptés menés par les équipes R&D de Linagora (qui publie sur son site web AI une passionnante introduction au domaine), soit des des corpus ouverts proposés par la communauté des acteurs du traitement du langage naturel. Les jeux de données utilisées sont détaillés dans les cartes des modèles.

Claire-7B-0.1 se décline en deux modalités en fonction des licences et des données d’apprentissage :

  1. Un premier modèle est diffusé sous licence ouverte CC-BY-NC-SA, car il a été appris sur des données dont certaines étaient en CC-BY-NC-SA. C’est celui qui a bénéficié du jeu de données le plus volumineux.
  2. Le second modèle est diffusé sous licence open source Apache V2. Son apprentissage utilise uniquement des données sous licences compatibles.

Techniquement, ces modèles sont issus de l’enrichissement en « continual pre-training » du modèle Falcon 7B afin d’améliorer son comportement sur des données de dialogue en français.

Pourquoi ce choix ? Explications de Jean-Pierre LORRE le patron de la R&D chez Linagora : « Nous avons envisagé deux modèles : Falcon 7B et Mistral 7B-v0.1 que nous avons tous les deux entraînés avec nos données. Après une évaluation rigoureuse impliquant une cohorte que nous décrirons dans un prochain papier nous avons retenu le modèle Falcon-7B qui présente de meilleures performances. Pour arriver à cette conclusion nous avons comparé les productions des modèles Falcon-7B, Mistral-7B-v0.1, Claire-Falcon-7B-v0.1 et Claire-Mistral-7B-v0.1 sur des prompts conversationnels. Chacune des quatre réponses générées a été évaluée selon trois dimensions : Interaction, fluidité et pertinence. Nos résultats confirment que le « continual pre-training » de Falcon-7b et de Mistral-7B-v0.1 conduit à une amélioration par rapport aux modèles de base dans les trois dimensions d’évaluation et que Claire-Falcon-7B-0.1 surpasse l’homologue adapté de Mistral dans les catégories Fluidité et Pertinence. »

23 recommended
bookmark icon
Mastodon