Capture d'écran du site PaddleOCR montrant le titre "The Ultimate Document Solution" avec des exemples d'analyse de notes de mathématiques, de tableaux et de texte vertical.

L’IA chinoise détrône un monument de Google : Baidu prend la tête de l’OCR mondial open source

Stupeur et tremblement dans l’univers de l’open source. Baidu a annoncé lundi que sa boîte à outils PaddleOCR a officiellement dépassé Tesseract, le projet historique de Google, pour devenir la solution de reconnaissance optique de caractères (OCR) la plus suivie sur GitHub. Une victoire qui marque la fin d’un règne de près de quarante ans pour la technologie héritée de Hewlett-Packard.

Le décompte est sans appel : avec environ 73 300 étoiles, PaddleOCR devance désormais les 72 700 étoiles de Tesseract. Bien que les étoiles GitHub soient un indicateur d’intérêt communautaire plutôt que de déploiement réel en production, elles témoignent d’un changement massif de préférence chez les développeurs.

« PaddleOCR, propulsé par ERNIE, se positionne désormais en tête de catégorie avec plus d’étoiles que tout autre projet OCR sur GitHub. Félicitations à l’équipe ! » a publié Baidu sur X.

Cette réussite est d’autant plus marquante que Tesseract, né au milieu des années 80 chez HP avant d’être maintenu par Google, était considéré comme le standard indéboulonnable de l’industrie. Aujourd’hui, l’approche « vision-langage » de la Chine semble avoir gagné la bataille de la modernité.

Pourquoi PaddleOCR écrase-t-il techniquement la concurrence ?

Le succès du projet repose sur sa capacité à traiter des documents d’une complexité que les outils traditionnels peinent à déchiffrer. En janvier 2026, la sortie de PaddleOCR-VL-1.5 a mis la barre très haut avec une précision de 94,5 % sur le benchmark OmniDocBench, le tout avec seulement 0,9 milliard de paramètres.

Le secret de cette performance réside dans l’intégration de la famille de modèles ERNIE 4.5. Contrairement à Tesseract, PaddleOCR ne se contente pas de lire du texte : il analyse la structure. Grâce à un encodeur visuel à résolution dynamique, il segmente et comprend les tableaux complexes, les formules mathématiques et les graphiques imbriqués.

Un pilier pour l’IA et le RAG

Aujourd’hui, l’OCR n’est plus seulement un outil de numérisation, c’est l’infrastructure fondamentale pour les flux de travail d’intelligence artificielle. PaddleOCR alimente désormais des projets majeurs en aval comme RAGFlow (pour la recherche augmentée par génération) ou OmniParser.

Caractéristique Tesseract (Google) PaddleOCR (Baidu)
Origine 1985 (HP) / Google 2020 (Baidu)
Licence Apache-2.0 Apache-2.0
Langues supportées 100+ 80+ (Optimisé multi-langues)
Points forts Texte simple, documents propres Tableaux, formules, mise en page complexe
Architecture LSTM / Legacy Deep Learning / Vision-Language (ERNIE)

Si Tesseract reste une valeur refuge pour l’extraction de texte simple et rapide, PaddleOCR s’impose comme le choix par excellence pour le traitement documentaire moderne. La boîte à outils chinoise a su bâtir une communauté de contributeurs active, transformant un projet local en un standard mondial incontournable.

Retour en haut