baidu/Unlimited-OCR : face à la concurrence open source

Analyse technique · 27 juin 2026 · Sources : arXiv, HuggingFace, README officiels

Publié le 22 juin 2026 — le plus récent de tous. Baidu a pris DeepSeek-OCR comme base et a remplacé toutes les couches d'attention par une R-SWA (Reference Sliding Window Attention) qui garde le KV cache constant. Résultat : il peut transcrire des dizaines de pages en un seul forward pass sans dégradation de latence.

Architecture

ParamètreValeur
Taille totale3B paramètres
Paramètres actifs (MoE)500M
Taille sur disque3.3 GB
Contexte max32K tokens
LicenseMIT
Pipelineimage-text-to-text

Performances (papier arXiv:2606.23050)

BenchmarkScore
OmniDocBench v1.593% (vs 87% DeepSeek-OCR)
OmniDocBench v1.693.92%
Débit (OmniDocBench)5 580 TPS @ 512 concurrents
Long-horizon (40+ pages)Edit distance < 0.11

Comparaison directe

ModèleTailleParams actifsOmniDocBench v1.6DébitÂge
baidu/Unlimited-OCR3.3 GB500M93.92%5580 TPS5 jours
zai-org/GLM-OCR0.9 GB~500M94.62 (#1)1.86 pages/s~15 mois
datalab-to/chandra-ocr-2~1 GB~650M— (olmocr: 85.8%)~3 mois
rednote-hilab/dots.ocr~1.7 GB~3B91.3% (v1.5)~11 mois
deepseek-ai/DeepSeek-OCR500M87%4951 TPS~8 mois
stepfun-ai/GOT-OCR2_0~6 GB~3B~82% (v1.5)~9 mois

Points forts d'Unlimited-OCR

Points faibles / limites

Verdict

Unlimited-OCR est le nouveau challenger technique — il innove sur l'architecture R-SWA pour le long-context parsing, et son score OmniDocBench v1.6 (93.92%) le place immédiatement dans le top 2.


GLM-OCR reste le roi actuel avec 94.62 sur le même benchmark, une maturité de 15 mois, un écosystème SDK et une communauté active. Les modèles de Datalab (Chandra/Surya) dominent le segment olmOCR bench avec un focus sur le multilingue et le markdown.


Unlimited-OCR gagne s'il reste dans les 6-8 prochaines semaines — les fine-tunes et benchmarks indépendants arriveront. Actuellement, c'est un modèle techniquement supérieur mais ecosystemally immature.