Publié le 22 juin 2026 — le plus récent de tous. Baidu a pris DeepSeek-OCR comme base et a remplacé toutes les couches d'attention par une R-SWA (Reference Sliding Window Attention) qui garde le KV cache constant. Résultat : il peut transcrire des dizaines de pages en un seul forward pass sans dégradation de latence.
| Paramètre | Valeur |
|---|---|
| Taille totale | 3B paramètres |
| Paramètres actifs (MoE) | 500M |
| Taille sur disque | 3.3 GB |
| Contexte max | 32K tokens |
| License | MIT |
| Pipeline | image-text-to-text |
| Benchmark | Score |
|---|---|
| OmniDocBench v1.5 | 93% (vs 87% DeepSeek-OCR) |
| OmniDocBench v1.6 | 93.92% |
| Débit (OmniDocBench) | 5 580 TPS @ 512 concurrents |
| Long-horizon (40+ pages) | Edit distance < 0.11 |
| Modèle | Taille | Params actifs | OmniDocBench v1.6 | Débit | Âge |
|---|---|---|---|---|---|
| baidu/Unlimited-OCR | 3.3 GB | 500M | 93.92% | 5580 TPS | 5 jours |
| zai-org/GLM-OCR | 0.9 GB | ~500M | 94.62 (#1) | 1.86 pages/s | ~15 mois |
| datalab-to/chandra-ocr-2 | ~1 GB | ~650M | — (olmocr: 85.8%) | — | ~3 mois |
| rednote-hilab/dots.ocr | ~1.7 GB | ~3B | 91.3% (v1.5) | — | ~11 mois |
| deepseek-ai/DeepSeek-OCR | — | 500M | 87% | 4951 TPS | ~8 mois |
| stepfun-ai/GOT-OCR2_0 | ~6 GB | ~3B | ~82% (v1.5) | — | ~9 mois |
Unlimited-OCR est le nouveau challenger technique — il innove sur l'architecture R-SWA pour le long-context parsing, et son score OmniDocBench v1.6 (93.92%) le place immédiatement dans le top 2.
GLM-OCR reste le roi actuel avec 94.62 sur le même benchmark, une maturité de 15 mois, un écosystème SDK et une communauté active. Les modèles de Datalab (Chandra/Surya) dominent le segment olmOCR bench avec un focus sur le multilingue et le markdown.
Unlimited-OCR gagne s'il reste dans les 6-8 prochaines semaines — les fine-tunes et benchmarks indépendants arriveront. Actuellement, c'est un modèle techniquement supérieur mais ecosystemally immature.