Dans un geste inattendu, OpenAI a publié ce mardi 21 avril 2026 Privacy Filter, un modèle à « poids ouverts » conçu spécifiquement pour détecter et masquer les informations personnelles (PII) dans vos textes. Publié sous licence Apache 2.0 (en open weight, donc pas exactement open source), cet outil permet aux entreprises de garantir la confidentialité de leurs données directement à la source, avant même qu’elles ne quittent l’ordinateur de l’utilisateur.
Alors que la conformité au RGPD et à l’HIPAA devient un casse-tête pour les déploiements IA, notamment en Europe, OpenAI propose une solution légère qui s’intègre au plus près de la création des données. Voici donc une solution toute trouvée : Privacy Filter, annoncée cette semaine.
Un modèle de 1,5 milliard de paramètres qui tient dans votre poche
La force de ce Privacy Filter réside dans son architecture. Avec 1,5 milliard de paramètres au total, il utilise une structure Sparse Mixture-of-Experts (MoE) qui ne sollicite que 50 millions de paramètres actifs à chaque calcul. Le résultat ? Une rapidité foudroyante qui lui permet de tourner localement sur un simple ordinateur portable ou même directement dans un navigateur web via WebGPU.
Contrairement aux outils traditionnels basés sur des règles rigides (comme les numéros de téléphone), ce modèle comprend le contexte. Il est capable de faire la différence entre une information publique et une donnée sensible d’un particulier. Il couvre huit catégories essentielles : noms, adresses, e-mails, téléphones, URLs, dates, numéros de compte et même les secrets (comme les clés API ou les mots de passe).
Plus qu’un simple filtre : une intelligence contextuelle
Pour les développeurs, le modèle est une aubaine. Grâce à sa fenêtre de contexte géante de 128 000 tokens, il peut traiter des documents massifs ou des journaux d’application complets sans avoir à les découper en morceaux. Les scores de performance sont impressionnants avec un F1 score de 96 % sur les benchmarks de masquage de données personnelles.
OpenAI a également soigné l’aspect personnalisable. Le modèle est accompagné d’un outil en ligne de commande permettant d’ajuster le compromis entre précision et rappel selon vos besoins. Vous voulez être sûr de ne rien rater au risque de masquer quelques mots inutiles ? C’est possible en un réglage.
Si vous cliquez ou appuyez sur le lien de la Model Card (fiche technique en bon français), vous tomberez sur la notice d’utilisation ultra-détaillée de l’IA. On y apprend notamment que le modèle a été entraîné avec l’aide d’un grand frère de la famille GPT-5 pour l’annotation. C’est le document indispensable pour comprendre les limites de l’outil : pour l’instant, il est surtout optimisé pour l’anglais et peut peiner sur des noms très peu communs ou des formats d’adresses exotiques.
Le modèle est d’ores et déjà disponible sur Hugging Face et GitHub. C’est une « préversion » destinée à recueillir les retours de la communauté, mais elle pose déjà les bases d’un standard de sécurité pour l’IA en entreprise.
