Google DeepMind a solidement secoué le monde de la biologie en 2021 en résolvant un problème vieux de 50 ans (et OpenFold va libérer tout ça !) : prédire la forme en trois dimensions d’une protéine à partir de sa séquence d’acides aminés. Pourquoi c’est crucial ? Parce que la forme d’une protéine détermine son rôle dans l’organisme, et donc comment un médicament peut s’y fixer pour la bloquer ou l’activer. AlphaFold a rendu cela possible avec une précision inédite. Problème : le code d’AlphaFold3 est fermé, ses données d’entraînement inaccessibles, et la recherche indépendante impossible à vérifier.
C’est exactement ce que le Consortium OpenFold vient de corriger avec la publication complète d’OpenFold3 : code source, poids du modèle, jeux de données d’entraînement complets et outils d’évaluation, le tout sous licence Apache 2.0. Pour la première fois, n’importe quel laboratoire dans le monde peut reproduire, vérifier et améliorer ce type de système de prédiction de structure biomoléculaire.
300 mille structures expérimentales et 13 millions d’entrées synthétiques
OpenFold3 ne prédit pas seulement la forme des protéines isolées. Il modélise des complexes biomoléculaires complets : protéines interagissant avec de petites molécules (les candidats médicaments), des acides nucléiques (ADN, ARN), et d’autres protéines. C’est ce qu’on appelle le « cofolding » – la prédiction simultanée de la structure de plusieurs molécules en interaction. Novo Nordisk et Bristol Myers Squibb font partie des utilisateurs, ce qui donne une idée de l’enjeu pharmaceutique concret.
Le modèle a été entraîné sur plus de 300 000 structures expérimentales et 13 millions d’entrées synthétiques. Les benchmarks publiés montrent des performances compétitives face à AlphaFold3 sur la majorité des tâches évaluées. Les données d’entraînement sont désormais accessibles via le registre de données ouvertes d’AWS.

Reproductible, auditable, extensible
Ce qui distingue cette publication des simples « publications de modèles » habituelles, c’est la portée de l’ouverture. Code d’entraînement, code d’inférence, scripts d’évaluation, documentation d’installation : tout est là. Un laboratoire universitaire peut réentraîner le modèle sur ses propres données, une équipe biotech peut l’affiner pour une famille de protéines spécifique, et n’importe quel chercheur peut vérifier les résultats publiés de manière indépendante – ce qui est impossible avec AlphaFold3.
Le consortium identifie la prédiction des complexes anticorps-antigène comme le prochain grand défi : c’est une priorité 2026, avec des travaux planifiés sur l’extension des données et l’amélioration du modèle pour les complexes immunitaires.
