L’Allen Institute for AI continue de publier Ă un rythme soutenu malgrĂ© une pĂ©riode de turbulences internes. Après SERA pour le code et OpenScholar pour la recherche scientifique, Ai2 publie MolmoWeb : un agent web Ă poids ouverts qui navigue sur internet exactement comme un humain le ferait – en regardant l’Ă©cran.
Pas de parsing HTML, pas d’arborescence d’accessibilitĂ©. MolmoWeb prend une capture d’Ă©cran, dĂ©cide de la prochaine action, et l’exĂ©cute : clic Ă des coordonnĂ©es prĂ©cises, saisie de texte, dĂ©filement, changement d’onglet. BasĂ© sur Molmo 2, le modèle multimodal d’Ai2, il est disponible en versions 4 et 8 milliards de paramètres, sous licence Apache 2.0. Une dĂ©mo en ligne est accessible dès maintenant.
Pourquoi naviguer par captures d’Ă©cran ?
L’argument technique est simple : « une seule capture d’Ă©cran est bien plus compacte qu’une reprĂ©sentation sĂ©rialisĂ©e de page, qui peut consommer des dizaines de milliers de tokens », explique Ai2. En pratique, ça fonctionne sur n’importe quel site web sans adaptation spĂ©cifique, y compris les interfaces complexes ou les applications Ă contenu dynamique qui rĂ©sistent aux approches basĂ©es sur le DOM.
Sur les benchmarks, MolmoWeb-8B atteint l’Ă©tat de l’art parmi les agents web Ă poids ouverts, surpasse Fara-7B sur tous les tests, et bat Claude 3.7 et l’Agent Computer Use d’OpenAI sur les tâches d’ancrage. Ai2 qualifie ce rĂ©sultat de « remarquable » face Ă des agents construits sur des modèles propriĂ©taires bien plus volumineux.
590 000 actions, 1 100 sites web
Ai2 publie Ă©galement MolmoWebMix, le jeu de donnĂ©es d’entraĂ®nement : plus de 590 000 actions individuelles couvrant 1 100 sites web, dont 30 000 tâches web complĂ©tĂ©es par des humains – la plus grande collection publique de ce type Ă ce jour – et plus de 2,2 millions de paires questions-rĂ©ponses sur des captures d’Ă©cran.
Un lancement dans un contexte de turbulences pour Ai2
Ce lancement intervient alors qu’Ai2 traverse une pĂ©riode difficile, rapporte Geekwire. Le PDG Ali Farhadi a dĂ©missionnĂ© le 12 mars, rejoint peu après par des chercheurs clĂ©s dont Hanna Hajishirzi (co-responsable des modèles OLMo) et Ranjay Krishna (dĂ©veloppement multimodal, Molmo) – tous partis vers l’Ă©quipe Superintelligence de Mustafa Suleyman chez Microsoft. Peter Clark, membre fondateur, assure l’intĂ©rim pendant la recherche d’un remplaçant. Une initiative de 152 millions de dollars US (soit 131 millions €) soutenue par la NSF et NVIDIA reste sur les rails selon Clark.
