Logo textuel "Unlimited OCR" écrit en blanc devant un trophée doré sur fond gris, avec le macaron "ZeroGPU" visible dans le coin supérieur gauche.

40 pages d’un coup sans saturer la mémoire : comment l’IA Unlimited-OCR de Baidu bat DeepSeek à son propre jeu

C’est une mini-révolution qui se joue cette semaine, l’air de rien, dans le domaine de la reconnaissance de documents. Baidu vient de publier Unlimited-OCR sous licence MIT. En imitant la mémoire de travail humaine, ce modèle de 3 milliards de paramètres transcrit des documents de plus de 40 pages d’une seule passe, laissant DeepSeek et Google derrière lui. Oui, ça décoiffe !

La reconnaissance optique de caractères (OCR) de bout en bout a récemment connu un important coup de projecteur sous l’impulsion des modèles de DeepSeek, mais aussi Baidu. L’usage d’un grand modèle de langage (LLM) comme décodeur permettait enfin de s’appuyer sur la logique du langage pour reconstruire des textes parfaits.

Problème actuel : plus le document à traiter est long, plus le cache Clé-Valeur (KV cache) s’accumule de manière linéaire, faisant exploser la consommation de mémoire vive et ralentissant dramatiquement la vitesse de génération. Un comportement à l’opposé de l’humain, qui ne perd pas en efficacité lorsqu’il recopie un long texte.

Pour briser ce plafond de verre architectural, le géant technologique Baidu vient de publier Unlimited-OCR. Ce modèle open source de 3 milliards de paramètres résout ce goulot d’étranglement fondamental en compressant l’empreinte mémoire d’une croissance linéaire à un état strictement constant.

L’innovation R-SWA : le secret d’un cache mémoire constant

Pour réussir cet exploit détaillé dans leur rapport technique Unlimited OCR Works sur arXiv, les chercheurs de Baidu ont remplacé l’intégralité des couches d’attention traditionnelles du décodeur par un mécanisme exclusif baptisé Reference Sliding Window Attention (R-SWA).

Plutôt que de forcer l’IA à garder en mémoire la totalité des jetons (tokens) générés depuis la première page, le système imite la mémoire de travail d’un humain en train de transcrire un livre :

  • Un focus permanent sur la source : les jetons visuels et textuels du document d’origine restent accessibles tout au long du processus.

  • Une fenêtre glissante pour la production : l’IA ne garde en mémoire que les 128 derniers jetons qu’elle vient de rédiger. Les informations textuelles plus anciennes subissent un oubli progressif (soft forgetting), évitant ainsi l’effondrement des performances ou la saturation de la mémoire vive (VRAM).

Associée à l’architecture d’encodage hautement compressive de DeepSeek-OCR, cette innovation permet à Unlimited-OCR de transcrire des documents de plus de 40 pages en une seule passe d’inférence, là où les modèles classiques doivent traiter les pages séquentiellement via des boucles logicielles complexes.

🦋 L’actualité de l’open source en français dans votre flux. Suivez Goodtech sur Bluesky (ou vos applications AT Protocol comme W Social et Mu) grâce à notre compte officiel. Suivez, partagez, abonnez-vous à @goodtech.info !

Les chiffres du benchmark : plus de 6 points d’avance sur DeepSeek

Sur le banc d’essai OmniDocBench, le verdict des chiffres met en évidence la supériorité de l’approche de Baidu face aux solutions existantes :

Sur les très longs documents, le modèle maintient une distance d’édition de 0,0572 avec 99,89 % de sorties distinctes sur des fichiers de 20 pages traités d’un seul coup. Même en poussant l’exercice au-delà des 40 pages, les résultats restent exploitables avec une distance d’édition contenue à 0,1069.

De plus, alors que la latence par jeton de DeepSeek augmente à chaque nouvelle page lue, celle d’Unlimited-OCR se matérialise par une ligne parfaitement plate du début à la fin de la numérisation.

chéma technique de l'architecture Unlimited-OCR de Baidu montrant l'analogie entre un étudiant qui écrit dans un cahier en consultant un livre et le fonctionnement du mécanisme de cache KV constant avec le décodeur LLM-R-SWA.
L’architecture R-SWA de Baidu reproduit la mémoire de travail humaine pour stabiliser la consommation de mémoire vive.

Un modèle poids plume sous licence MIT

Fidèle à sa stratégie d’ouverture amorcée avec le modèle Qianfan-OCR plus tôt cette année, Baidu a publié Unlimited-OCR sous la très permissive licence MIT. Le code source et les poids du modèle sont librement téléchargeables sur les plateformes GitHub et Hugging Face.

Sur le plan architectural, il s’agit d’un modèle de type mélange d’experts (MoE) de 3 milliards de paramètres au total. Toutefois, l’inférence s’avère extrêmement économique puisque seuls 500 millions de paramètres sont activés par jeton. En quantification INT4, l’empreinte matérielle devient dérisoire : l’IA ne requiert que 1,8 Go de VRAM pour s’exécuter, la rendant compatible avec des configurations grand public ou des architectures légères (on-edge).

Le modèle s’intègre dès sa sortie avec les principaux moteurs d’inférence de l’écosystème open source, notamment vLLM, SGLang, Ollama et llama.cpp. Au-delà de la simple numérisation de documents, les chercheurs soulignent que le mécanisme d’attention R-SWA constitue une solution de décodage générique. Cette architecture pourrait rapidement être transposée à d’autres tâches de traitement de longues séquences, à commencer par la reconnaissance automatique de la parole (ASR) ou la traduction automatisée.

1 réflexion sur “40 pages d’un coup sans saturer la mémoire : comment l’IA Unlimited-OCR de Baidu bat DeepSeek à son propre jeu”

Les commentaires sont fermés.

Retour en haut