Unlimited-OCR vs Concurrence Open Source

baidu/Unlimited-OCR : face à la concurrence open source

Analyse technique · 27 juin 2026 · Sources : arXiv, HuggingFace, README officiels

Publié le 22 juin 2026 — le plus récent de tous. Baidu a pris DeepSeek-OCR comme base et a remplacé toutes les couches d'attention par une R-SWA (Reference Sliding Window Attention) qui garde le KV cache constant. Résultat : il peut transcrire des dizaines de pages en un seul forward pass sans dégradation de latence.

Paramètre	Valeur
Taille totale	3B paramètres
Paramètres actifs (MoE)	500M
Taille sur disque	3.3 GB
Contexte max	32K tokens
License	MIT
Pipeline	image-text-to-text

Paramètre

Valeur

Taille totale

3B paramètres

Paramètres actifs (MoE)

500M

Taille sur disque

3.3 GB

Contexte max

32K tokens

License

MIT

Pipeline

image-text-to-text

Benchmark	Score
OmniDocBench v1.5	93% (vs 87% DeepSeek-OCR)
OmniDocBench v1.6	93.92%
Débit (OmniDocBench)	5 580 TPS @ 512 concurrents
Long-horizon (40+ pages)	Edit distance < 0.11

Benchmark

Score

OmniDocBench v1.5

93% (vs 87% DeepSeek-OCR)

OmniDocBench v1.6

93.92%

Débit (OmniDocBench)

5 580 TPS @ 512 concurrents

Long-horizon (40+ pages)

Edit distance < 0.11

Comparaison directe

Modèle	Taille	Params actifs	OmniDocBench v1.6	Débit	Âge
baidu/Unlimited-OCR	3.3 GB	500M	93.92%	5580 TPS	5 jours
zai-org/GLM-OCR	0.9 GB	~500M	94.62 (#1)	1.86 pages/s	~15 mois
datalab-to/chandra-ocr-2	~1 GB	~650M	— (olmocr: 85.8%)	—	~3 mois
rednote-hilab/dots.ocr	~1.7 GB	~3B	91.3% (v1.5)	—	~11 mois
deepseek-ai/DeepSeek-OCR	—	500M	87%	4951 TPS	~8 mois
stepfun-ai/GOT-OCR2_0	~6 GB	~3B	~82% (v1.5)	—	~9 mois

Modèle

Taille

Params actifs

OmniDocBench v1.6

Débit

Âge

baidu/Unlimited-OCR

3.3 GB

500M

93.92%

5580 TPS

5 jours

zai-org/GLM-OCR

0.9 GB

~500M

94.62 (#1)

1.86 pages/s

~15 mois

datalab-to/chandra-ocr-2

~1 GB

~650M

— (olmocr: 85.8%)

—

~3 mois

rednote-hilab/dots.ocr

~1.7 GB

~3B

91.3% (v1.5)

—

~11 mois

deepseek-ai/DeepSeek-OCR

—

500M

87%

4951 TPS

~8 mois

stepfun-ai/GOT-OCR2_0

~6 GB

~3B

~82% (v1.5)

—

~9 mois

Points forts d'Unlimited-OCR

Long-horizon parsing unique : 40+ pages en un seul forward pass avec latence constante (R-SWA = KV cache fixe)

SOTA OmniDocBench v1.6 : 93.92%, très proche de GLM-OCR (94.62)

MoE ultra-léger : 500M actifs = inference rapide sur GPU modeste

License MIT : la plus permissive

Amélioration sur DeepSeek-OCR : +6% sur OmniDocBench, +12.7% en TPS

Points faibles / limites

Âge très récent (5 jours) : aucune communauté, aucun benchmark indépendant, aucun fine-tune

Moins de fonctionnalités que GLM-OCR : pas d'extraction JSON structurée, SDK moins mature

olmOCR bench absent : GLM-OCR et Chandra publient dessus (référence OCR libre)

Baidu + papers auto-publiés : résultats auto-proposés, à corroborer

Multi-page : edit distance remonte à 0.11 à 40+ pages (acceptable mais pas parfait)

Verdict

Unlimited-OCR est le nouveau challenger technique — il innove sur l'architecture R-SWA pour le long-context parsing, et son score OmniDocBench v1.6 (93.92%) le place immédiatement dans le top 2.

GLM-OCR reste le roi actuel avec 94.62 sur le même benchmark, une maturité de 15 mois, un écosystème SDK et une communauté active. Les modèles de Datalab (Chandra/Surya) dominent le segment olmOCR bench avec un focus sur le multilingue et le markdown.

Unlimited-OCR gagne s'il reste dans les 6-8 prochaines semaines — les fine-tunes et benchmarks indépendants arriveront. Actuellement, c'est un modèle techniquement supérieur mais ecosystemally immature.

baidu/Unlimited-OCR : face à la concurrence open source

Architecture

Performances (papier arXiv:2606.23050)

Comparaison directe

Points forts d'Unlimited-OCR

Points faibles / limites

Verdict