Meta vient d’ouvrir le code de son outil interne de classification de documents sensibles, baptisé Automated Sensitive Document Classification. Conçu à l’origine pour détecter automatiquement les fichiers confidentiels dans son propre environnement, il est désormais accessible à tous les développeurs sur GitHub, avec l’ambition de contribuer à une meilleure prévention des pertes de données dans les entreprises.
L’outil repose sur une approche modulaire basée sur LLM, intégrant Llama pour l’analyse sémantique et Apache Tikapour extraire le texte de fichiers Google Docs, Sheets ou Slides. Il permet ensuite d’attribuer automatiquement des niveaux de sensibilité à ces documents, en s’appuyant sur des règles personnalisables. Les fichiers ainsi étiquetés peuvent être protégés contre les accès non autorisés ou exclus d’outils d’IA tels que ceux utilisant des techniques RAG (retrieval-augmented generation).
Développé au sein de l’équipe sécurité de Meta, cet outil répond à une difficulté bien connue : la complexité et la masse des données à traiter. Les approches classiques comme les expressions régulières ont rapidement montré leurs limites. Meta a donc misé sur une architecture alimentée par un grand modèle de langage, offrant une meilleure couverture, une auditabilité native, et des options avancées comme l’export CSV ou l’intégration dans une base SQL pour tracer les classifications, les empreintes (MD5) et les statuts de parsing.
Le projet se distingue aussi par sa flexibilité de déploiement : on peut l’exécuter sous forme de conteneur Docker ou l’importer comme package Python. L’équipe prévoit déjà d’étendre sa compatibilité à d’autres services cloud comme Office 365, et d’ouvrir davantage l’outil aux contributions de la communauté.
L’outil est disponible sur GitHub :
👉 Sensitive Document Classification sur GitHub
Une licence open source… ou presque ?
L’outil est distribué sous la LLAMA 3.2 COMMUNITY LICENSE, une licence propre à Meta. Contrairement à ce que son nom suggère, elle n’est pas reconnue comme « open source » au sens strict par l’Open Source Initiative, car elle impose certaines restrictions d’usage, notamment en interdisant explicitement certaines utilisations commerciales ou concurrentielles. Il s’agit donc davantage d’un partage de code encadré que d’un projet 100 % libre au sens classique.
