Adieu le PDF ? La Linux Foundation lance DocLang, le premier format natif IA

Le PDF a été conçu pour l’impression, DOC et ODF pour l’édition. Et si on créait un format pensé pour l’IA ? La Fondation LF AI & Data (Linux Foundation) s’associe à IBM, NVIDIA, Red Hat et ABBYY pour lancer le groupe de travail DocLang. L’objectif : imposer un standard documentaire ouvert, universel et hautement structuré pour alimenter les LLM sans perte de contexte.

Les entreprises qui déploient des architectures d’intelligence artificielle générative se heurtent toutes au même mur invisible : la nature des fichiers manipulés. Qu’il s’agisse de PDF, de fichiers Word ou d’images JPEG, l’intégralité des formats documentaires actuels a été historiquement conçue pour être lue et interprétée par des humains, et non par des algorithmes. Ce décalage structurel introduit une immense complexité technique, fait exploser les coûts de calcul et dégrade la fiabilité des systèmes agentiques ou des pipelines RAG (Retrieval-Augmented Generation) lors de l’extraction des données.

Pour résoudre ce problème à la racine, la Fondation LF AI & Data (la branche de la Linux Foundation dédiée à l’innovation open source dans l’IA) vient d’officialiser la création du groupe de travail sur la spécification DocLang. Menée par un consortium de géants de l’industrie incluant IBM, NVIDIA, Red Hat, ABBYY et HumanSignal, cette initiative vise à imposer un standard ouvert, universel et neutre pour structurer les connaissances à destination des machines.

Les 4 piliers d’un document taillé pour les LLM

Sous la gouvernance ouverte de la Joint Development Foundation, DocLang ne cherche pas à réinventer la mise en page visuelle, mais à proposer une représentation minimale et déterministe du sens d’un document.

La spécification intègre nativement quatre couches techniques fondamentales :

Sémantique et géométrie unifiées : préservation du sens profond du texte et de sa disposition géométrique exacte au sein d’un unique format d’échange.
Cartographie structurelle complète : identification et localisation précise sur la page de chaque composant du document, qu’il s’agisse d’un titre, d’un paragraphe ou d’un tableau complexe.
Gouvernance de la donnée intégrée : intégration de balises de contrôle permettant aux systèmes IA en aval d’appliquer de manière stricte les politiques de confidentialité, de restreindre le périmètre d’extraction ou d’interdire l’utilisation du contenu pour l’entraînement de futurs modèles.
Optimisation pour la tokenisation : structuration pensée pour faciliter le découpage en jetons (tokens) et optimiser la compréhension par les modèles de langage actuels.

« DocLang est conçu pour résoudre l’un des problèmes fondamentaux de l’IA en entreprise : les documents ont été construits pour les humains, pas pour les machines », explique Maxime Vermeir, VP of AI Strategy chez ABBYY. « En introduisant une représentation minimale, standardisée et native IA […], DocLang crée une base bien plus déterministe pour les systèmes d’IA modernes. »

Le chaînon manquant de la pile open source : le duo Docling + DocLang

Cette nouvelle spécification ne part pas de zéro et vient compléter un projet open source déjà très populaire au sein de l’écosystème : Docling. Développée à l’origine par l’équipe « IA pour la connaissance » d’IBM Research Zurich et transférée à la Linux Foundation en 2024, cette boîte à outils sert d’électrolytes et de convertisseur universel. Docling ingère les formats hétérogènes (.pdf, .docx, .xlsx, HTML) et utilise l’IA pour analyser leur mise en page et extraire proprement les tableaux.

C’est ici que les deux technologies s’articulent comme une pile documentaire libre complète :

Docling agit comme le moteur de lecture et de conversion qui traduit l’ancien monde documentaire.
DocLang intervient pour standardiser et formaliser ces sorties structurées dans un format standardisé et interopérable, directement consommable par les agents IA.

En unissant leurs forces, les contributeurs du projet espèrent ainsi créer un environnement indépendant de tout fournisseur d’infrastructure cloud ou de modèle propriétaire, garantissant la transparence des données à grande échelle. Les développeurs et entreprises désireux de collaborer ou d’analyser la spécification peuvent d’ores et déjà consulter le répertoire GitHub officiel de DocLang.

🦋 L’actualité de l’open source dans votre flux. Suivez Goodtech sur Bluesky (ou vos applications AT Protocol préférées) grâce à notre bot officiel. Suivez, partagez, abonnez-vous à @goodtech.info !

L’après PDF et DOCX : voici DocLang, le premier format documentaire natif IA

Les 4 piliers d’un document taillé pour les LLM

Le chaînon manquant de la pile open source : le duo Docling + DocLang

J’aime ça :

Articles similaires

4 réflexions sur “L’après PDF et DOCX : voici DocLang, le premier format documentaire natif IA”

L’après PDF et DOCX : voici DocLang, le premier format documentaire natif IA

Les 4 piliers d’un document taillé pour les LLM

Le chaînon manquant de la pile open source : le duo Docling + DocLang

Partager :

J’aime ça :

Articles similaires

Must Read

4 réflexions sur “L’après PDF et DOCX : voici DocLang, le premier format documentaire natif IA”