Des chercheurs de l’Université de Washington et de l’Allen Institute for AI ont créé OpenScholar, un outil d’intelligence artificielle open source qui synthétise la recherche scientifique avec plus de précision que les chatbots commerciaux. L’étude, publiée le 4 février dans Nature, montre que les experts du domaine préfèrent ses réponses à celles rédigées par des scientifiques humains dans plus de la moitié des cas.
OpenScholar est un modèle de langage spécialisé entraîné sur 45 millions d’articles scientifiques en accès libre couvrant l’informatique, la physique, la biomédecine et les neurosciences. L’outil constitue une réponse ciblée à un problème persistant dans la recherche assistée par l’IA : les chatbots généralistes comme ChatGPT inventent fréquemment des citations lorsqu’ils résument la littérature scientifique.
![]()
GPT-4o invente 78 à 90% de ses citations
Lorsque l’équipe de recherche a examiné le modèle GPT-4o d’OpenAI, elle a constaté qu’il inventait de toutes pièces 78 à 90 % de ses citations de recherche. OpenScholar, en revanche, a atteint une précision de citation comparable à celle d’experts humains en utilisant une technique appelée génération augmentée par récupération, qui permet au modèle de rechercher dans sa base de données scientifique, d’incorporer les articles pertinents et de les citer directement.
« Après avoir commencé ce travail, nous avons mis la démonstration en ligne et très rapidement, nous avons reçu énormément de requêtes, bien plus que ce que nous avions anticipé« , déclare Hannaneh Hajishirzi, professeure associée à l’Université de Washington et directrice principale chez Ai2.

Préféré aux réponses humaines
Dans des évaluations impliquant 16 scientifiques de plusieurs disciplines, les experts ont préféré les réponses d’OpenScholar aux réponses rédigées par des humains dans 51% des cas. Lorsque les chercheurs ont combiné le système de citation d’OpenScholar avec GPT-4o, ce taux de préférence est monté à 70%. En comparaison, GPT-4o seul n’était privilégié que dans 32% des cas.
Environ 30 000 chercheurs ont utilisé une version de démonstration d’OpenScholar depuis son lancement, dont la plupart travaillent en dehors du domaine de l’informatique. « Beaucoup d’entre eux disent que c’est utile pour comprendre rapidement ou pour identifier rapidement les articles importants« , déclare Akari Asai, auteure principale de l’étude et informaticienne à l’Ai2 qui rejoindra l’université Carnegie Mellon en tant que professeure assistante cet automne.
L’équipe développe déjà un successeur, DR Tulu, qui génère des rapports complets à partir de sources provenant de tout Internet et dont les performances sont comparables ou supérieures à celles d’OpenScholar lors des premiers tests. Le code, les modèles, les données et une démo publique sont disponibles en open source sur GitHub.

