Anthropic publie en open source ses outils d’interprétabilité IA

Anthropic a publié en open source son outil de circuit tracing, une technologie qui permet de visualiser les chemins de raisonnement internes des grands modèles de langage. Disponible sur GitHub, cet outil offre une nouvelle approche de l’interprétabilité de l’IA à travers des graphes interactifs, notamment via la plateforme Neuronpedia. Explications.

Les graphes d’attribution visualisent les étapes de calcul qu’un modèle suit pour générer une sortie. Ils permettent d’identifier des sous-structures pertinentes, des corrélations neuronales ou encore des dépendances inattendues. Anthropic combine plusieurs techniques de visualisation : survol des nœuds pour explorer les détails, regroupements de caractéristiques, positionnement structuré des éléments, cartes thermiques et vues combinées. L’objectif : rendre lisible ce qui se joue dans des réseaux souvent composés de centaines de nœuds et milliers de connexions.

L’interface Neuronpedia permet aux chercheurs d’interagir avec les modèles de façon intuitive. Elle donne accès à des tableaux de bord, des tests en direct, des outils collaboratifs et même une API pour les travaux plus poussés. Avec plus de 4 To de données accessibles (activations, métadonnées, explications), Neuronpedia démocratise l’analyse avancée des modèles de langage.

Les outils d’Anthropic ont déjà été appliqués à Gemma-2-2B, un modèle open source de Google comptant 2 milliards de paramètres. Grâce à sa légèreté, il peut être utilisé avec des ressources limitées (même sur Colab). Des exemples de comportements sont analysables directement via Neuronpedia, notamment des cas de raisonnement multilingue ou de déduction progressive. Le projet GemmaScope, de Google, fournit plus de 400 autoencodeurs spécialisés pour ce type d’analyse.

Dario Amodei, PDG d’Anthropic, insiste sur l’urgence d’une « IRM de l’IA » pour comprendre ce que font réellement les systèmes. Dans son essai The Urgency of Interpretability, il dénonce l’opacité des modèles comme un frein à leur déploiement responsable. L’interprétabilité devient ainsi un enjeu central, non seulement scientifique, mais politique et stratégique : elle conditionne la confiance, la régulation, et la sécurité technique à mesure que les IA gagnent en autonomie.

Anthropic ouvre ses outils de traçage de raisonnement des IA

J’aime ça :

Articles similaires

Anthropic ouvre ses outils de traçage de raisonnement des IA

Partager :

J’aime ça :

Articles similaires

Must Read