Stupeur et tremblement dans l’univers de l’open source. Baidu a annoncé lundi que sa boîte à outils PaddleOCR a officiellement dépassé Tesseract, le projet historique de Google, pour devenir la solution de reconnaissance optique de caractères (OCR) la plus suivie sur GitHub. Une victoire qui marque la fin d’un règne de près de quarante ans pour la technologie héritée de Hewlett-Packard.
Le décompte est sans appel : avec environ 73 300 étoiles, PaddleOCR devance désormais les 72 700 étoiles de Tesseract. Bien que les étoiles GitHub soient un indicateur d’intérêt communautaire plutôt que de déploiement réel en production, elles témoignent d’un changement massif de préférence chez les développeurs.
« PaddleOCR, propulsé par ERNIE, se positionne désormais en tête de catégorie avec plus d’étoiles que tout autre projet OCR sur GitHub. Félicitations à l’équipe ! » a publié Baidu sur X.
PaddleOCR, powered by ERNIE, now sits at the top of the category with more stars than any other OCR project on GitHub. Congrats to the team! https://t.co/vVNynv1IOL pic.twitter.com/MhX5WJmg8o
— Baidu Inc. (@Baidu_Inc) March 30, 2026
Cette réussite est d’autant plus marquante que Tesseract, né au milieu des années 80 chez HP avant d’être maintenu par Google, était considéré comme le standard indéboulonnable de l’industrie. Aujourd’hui, l’approche « vision-langage » de la Chine semble avoir gagné la bataille de la modernité.
Pourquoi PaddleOCR écrase-t-il techniquement la concurrence ?
Le succès du projet repose sur sa capacité à traiter des documents d’une complexité que les outils traditionnels peinent à déchiffrer. En janvier 2026, la sortie de PaddleOCR-VL-1.5 a mis la barre très haut avec une précision de 94,5 % sur le benchmark OmniDocBench, le tout avec seulement 0,9 milliard de paramètres.
Le secret de cette performance réside dans l’intégration de la famille de modèles ERNIE 4.5. Contrairement à Tesseract, PaddleOCR ne se contente pas de lire du texte : il analyse la structure. Grâce à un encodeur visuel à résolution dynamique, il segmente et comprend les tableaux complexes, les formules mathématiques et les graphiques imbriqués.
Un pilier pour l’IA et le RAG
Aujourd’hui, l’OCR n’est plus seulement un outil de numérisation, c’est l’infrastructure fondamentale pour les flux de travail d’intelligence artificielle. PaddleOCR alimente désormais des projets majeurs en aval comme RAGFlow (pour la recherche augmentée par génération) ou OmniParser.
| Caractéristique | Tesseract (Google) | PaddleOCR (Baidu) |
| Origine | 1985 (HP) / Google | 2020 (Baidu) |
| Licence | Apache-2.0 | Apache-2.0 |
| Langues supportées | 100+ | 80+ (Optimisé multi-langues) |
| Points forts | Texte simple, documents propres | Tableaux, formules, mise en page complexe |
| Architecture | LSTM / Legacy | Deep Learning / Vision-Language (ERNIE) |
Si Tesseract reste une valeur refuge pour l’extraction de texte simple et rapide, PaddleOCR s’impose comme le choix par excellence pour le traitement documentaire moderne. La boîte à outils chinoise a su bâtir une communauté de contributeurs active, transformant un projet local en un standard mondial incontournable.
