C’est une mini-révolution qui se joue cette semaine, l’air de rien, dans le domaine de la reconnaissance de documents. Baidu vient de publier Unlimited-OCR sous licence MIT. En imitant la mémoire de travail humaine, ce modèle de 3 milliards de paramètres transcrit des documents de plus de 40 pages d’une seule passe, laissant DeepSeek et Google derrière lui. Oui, ça décoiffe !
La reconnaissance optique de caractères (OCR) de bout en bout a récemment connu un important coup de projecteur sous l’impulsion des modèles de DeepSeek, mais aussi Baidu. L’usage d’un grand modèle de langage (LLM) comme décodeur permettait enfin de s’appuyer sur la logique du langage pour reconstruire des textes parfaits.
Problème actuel : plus le document à traiter est long, plus le cache Clé-Valeur (KV cache) s’accumule de manière linéaire, faisant exploser la consommation de mémoire vive et ralentissant dramatiquement la vitesse de génération. Un comportement à l’opposé de l’humain, qui ne perd pas en efficacité lorsqu’il recopie un long texte.
Pour briser ce plafond de verre architectural, le géant technologique Baidu vient de publier Unlimited-OCR. Ce modèle open source de 3 milliards de paramètres résout ce goulot d’étranglement fondamental en compressant l’empreinte mémoire d’une croissance linéaire à un état strictement constant.
Github: https://t.co/Hsu1RxFqhq
Hugging Face: https://t.co/grWysiMrFx— Baidu Inc. (@Baidu_Inc) June 23, 2026
L’innovation R-SWA : le secret d’un cache mémoire constant
Pour réussir cet exploit détaillé dans leur rapport technique Unlimited OCR Works sur arXiv, les chercheurs de Baidu ont remplacé l’intégralité des couches d’attention traditionnelles du décodeur par un mécanisme exclusif baptisé Reference Sliding Window Attention (R-SWA).
Plutôt que de forcer l’IA à garder en mémoire la totalité des jetons (tokens) générés depuis la première page, le système imite la mémoire de travail d’un humain en train de transcrire un livre :
-
Un focus permanent sur la source : les jetons visuels et textuels du document d’origine restent accessibles tout au long du processus.
-
Une fenêtre glissante pour la production : l’IA ne garde en mémoire que les 128 derniers jetons qu’elle vient de rédiger. Les informations textuelles plus anciennes subissent un oubli progressif (soft forgetting), évitant ainsi l’effondrement des performances ou la saturation de la mémoire vive (VRAM).
Associée à l’architecture d’encodage hautement compressive de DeepSeek-OCR, cette innovation permet à Unlimited-OCR de transcrire des documents de plus de 40 pages en une seule passe d’inférence, là où les modèles classiques doivent traiter les pages séquentiellement via des boucles logicielles complexes.
🦋 L’actualité de l’open source en français dans votre flux. Suivez Goodtech sur Bluesky (ou vos applications AT Protocol comme W Social et Mu) grâce à notre compte officiel. Suivez, partagez, abonnez-vous à @goodtech.info !
Les chiffres du benchmark : plus de 6 points d’avance sur DeepSeek
Sur le banc d’essai OmniDocBench, le verdict des chiffres met en évidence la supériorité de l’approche de Baidu face aux solutions existantes :
Sur les très longs documents, le modèle maintient une distance d’édition de 0,0572 avec 99,89 % de sorties distinctes sur des fichiers de 20 pages traités d’un seul coup. Même en poussant l’exercice au-delà des 40 pages, les résultats restent exploitables avec une distance d’édition contenue à 0,1069.
De plus, alors que la latence par jeton de DeepSeek augmente à chaque nouvelle page lue, celle d’Unlimited-OCR se matérialise par une ligne parfaitement plate du début à la fin de la numérisation.

Un modèle poids plume sous licence MIT
Fidèle à sa stratégie d’ouverture amorcée avec le modèle Qianfan-OCR plus tôt cette année, Baidu a publié Unlimited-OCR sous la très permissive licence MIT. Le code source et les poids du modèle sont librement téléchargeables sur les plateformes GitHub et Hugging Face.
Sur le plan architectural, il s’agit d’un modèle de type mélange d’experts (MoE) de 3 milliards de paramètres au total. Toutefois, l’inférence s’avère extrêmement économique puisque seuls 500 millions de paramètres sont activés par jeton. En quantification INT4, l’empreinte matérielle devient dérisoire : l’IA ne requiert que 1,8 Go de VRAM pour s’exécuter, la rendant compatible avec des configurations grand public ou des architectures légères (on-edge).
Le modèle s’intègre dès sa sortie avec les principaux moteurs d’inférence de l’écosystème open source, notamment vLLM, SGLang, Ollama et llama.cpp. Au-delà de la simple numérisation de documents, les chercheurs soulignent que le mécanisme d’attention R-SWA constitue une solution de décodage générique. Cette architecture pourrait rapidement être transposée à d’autres tâches de traitement de longues séquences, à commencer par la reconnaissance automatique de la parole (ASR) ou la traduction automatisée.

… liked this!