Mistral OCR 3: āļāđāļēāļ§āļāļĢāļ°āđāļāļāļāļĢāļąāđāļāđāļŦāļāđāļāļāļāļāļēāļĢāļāđāļēāļāđāļāļāļŠāļēāļĢāļāđāļ§āļĒ AI
Mistral OCR 3 āļāļ·āļāđāļ§āļāļĢāđāļāļąāļāđāļŦāļĄāđāļĨāđāļēāļŠāļļāļāļāļāļāļĢāļ°āļāļ OCR āļāļēāļ Mistral AI āļāļĩāđāļāļđāļāļāļāļāđāļāļāļĄāļēāđāļāļ·āđāļāļĒāļāļĢāļ°āļāļąāļāļāļ§āļēāļĄāđāļĄāđāļāļĒāļģāđāļĨāļ°āļāļ§āļēāļĄāļāļāļāļēāļāđāļāļāļēāļĢāļāļĢāļ°āļĄāļ§āļĨāļāļĨāđāļāļāļŠāļēāļĢāļāļļāļāļāļĢāļ°āđāļ āļ āļāļąāđāļāđāļāđāļāļāļĢāđāļĄāļĢāļēāļāļāļēāļĢ āļŠāđāļāļāļāļļāļāļ āļēāļāļāđāļģ āđāļāļāļāļāļķāļāļĨāļēāļĒāļĄāļ·āļāļāļĩāđāļāđāļēāļāļĒāļēāļ āļāļļāļāđāļāđāļāļŠāļģāļāļąāļāļāļ·āļāļāļĢāļ°āļŠāļīāļāļāļīāļ āļēāļāļāļĩāđāđāļŦāļāļ·āļāļāļ§āđāļē Mistral OCR 2 āļāļĒāđāļēāļāļāļąāļāđāļāļ āđāļāļĒāļĄāļĩāļāļąāļāļĢāļēāļāļāļ°āļĢāļ§āļĄāļāļ§āđāļē 74% āđāļāļāļēāļĢāļāļāļŠāļāļāļ āļēāļĒāđāļāļāļąāļāđāļāļāļŠāļēāļĢāļāļĢāļīāļāļāļēāļāļĨāļđāļāļāđāļēāļāļāļāđāļāļĢ
āļŠāļīāđāļāļāļĩāđāļāļģāđāļŦāđāļĢāļļāđāļāļāļĩāđāđāļāļāđāļāđāļāļāļ·āļāļāļ§āļēāļĄāļŠāļēāļĄāļēāļĢāļāđāļāļāļēāļĢ “āđāļāđāļēāđāļāđāļāļĢāļāļŠāļĢāđāļēāļāđāļāļāļŠāļēāļĢ” āđāļĄāđāđāļāđāđāļāđāļāļķāļāļāđāļāļāļ§āļēāļĄāļāļāļāļĄāļēāđāļāđāļēāļāļąāđāļ Mistral OCR 3 āļŠāļēāļĄāļēāļĢāļāļŠāļĢāđāļēāļ Markdown āļāļĩāđāļĄāļĩ HTML table reconstruction āđāļāļ·āđāļāļĢāļąāļāļĐāļēāđāļāļĢāļāļŠāļĢāđāļēāļāļāļēāļĢāļēāļāļāļĩāđāļāļąāļāļāđāļāļ āđāļāđāļ merged cells, multi-row headers āđāļĨāļ° column hierarchy āļāļķāđāļāđāļāđāļāļŠāļīāđāļāļāļĩāđ OCR āļāļąāđāļ§āđāļāļāļģāđāļāđāļĒāļēāļāļĄāļēāļ āļāļāļāļāļēāļāļāļĩāđāļĒāļąāļāļĢāļāļāļĢāļąāļāļāļēāļĢāļāļķāļāļ āļēāļāļāļĩāđāļāļąāļāļāļĒāļđāđāđāļāđāļāļāļŠāļēāļĢāļāļāļāļĄāļēāļāļĢāđāļāļĄāļāļąāļ āļāļģāđāļŦāđāđāļŦāļĄāļēāļ°āļŠāļģāļŦāļĢāļąāļ workflow āļāļĩāđāļāđāļāļāļāļēāļĢāļāđāļāļĄāļđāļĨāļāļĢāļāļāđāļ§āļāđāļāļ·āđāļāļāđāļāļāđāļŦāđ agent āļŦāļĢāļ·āļāļĢāļ°āļāļ downstream āļāļ·āđāļāđ
āļāļĩāļāļŦāļāļķāđāļāļāļļāļāđāļāđāļāļāļ·āļāļāļ§āļēāļĄāļŠāļēāļĄāļēāļĢāļāđāļāļāļēāļĢāļāļąāļāļāļēāļĢāđāļāļāļŠāļēāļĢāļāļĩāđāļĄāļĩāļāļļāļāļ āļēāļāļāđāļģ āđāļāđāļ āļŠāđāļāļāđāļāļĩāļĒāļ āļ āļēāļāđāļāļĨāļ DPI āļāđāļģ āļŦāļĢāļ·āļāļĄāļĩ noise āļāļķāđāļāđāļāđāļāļāļąāļāļŦāļēāļāļĩāđāļāļāļāđāļāļĢāļāļģāļāļ§āļāļĄāļēāļāļāđāļāļāđāļāļāđāļāļāļēāļāļāļĢāļīāļ āđāļĄāđāļ§āđāļēāļāļ°āđāļāđāļāđāļāļāļŠāļēāļĢāđāļāđāļē āđāļāļāļŠāļēāļĢāļĢāļēāļāļāļēāļĢ āļŦāļĢāļ·āļāđāļāļĨāđāļāļĩāđāļāļđāļāļāđāļēāļĒāļāļēāļāļĄāļ·āļāļāļ·āļ Mistral OCR 3 āļāļđāļāļāļķāļāļĄāļēāđāļŦāđ robust āļāđāļāļŠāļāļēāļāļāļēāļĢāļāđāđāļŦāļĨāđāļēāļāļĩāđāđāļāļĒāđāļāļāļēāļ° āļāļģāđāļŦāđāļāļĨāļĨāļąāļāļāđāļĄāļĩāļāļ§āļēāļĄāđāļŠāļāļĩāļĒāļĢāđāļĨāļ°āļāļĢāđāļāļĄāđāļāđāļāļēāļāļĄāļēāļāļāļķāđāļāđāļāļĢāļ°āļāļąāļ production
āļŠāļļāļāļāđāļēāļĒ Mistral OCR 3 āļĒāļąāļāļĄāļēāļāļĢāđāļāļĄāļĢāļēāļāļēāļāļĩāđāđāļāđāļāļāļąāļāđāļāđāļĄāļēāļ—āđāļāļĩāļĒāļ $2 āļāđāļ 1,000 āļŦāļāđāļē āđāļĨāļ°āļĨāļāđāļŦāļĨāļ·āļ $1 āļāđāļ 1,000 āļŦāļāđāļē āđāļĄāļ·āđāļāđāļāđ Batch API āļāļķāđāļāļāļđāļāļāļ§āđāļēāļĢāļ°āļāļ OCR āđāļāļīāļāļāļēāļāļīāļāļĒāđāļŦāļĨāļēāļĒāđāļāđāļēāļāļĒāđāļēāļāļĄāļĩāļāļąāļĒāļŠāļģāļāļąāļ āļāļģāđāļŦāđāđāļāđāļāļāļąāļ§āđāļĨāļ·āļāļāļāļĩāđāļāđāļēāļŠāļāđāļāļŠāļģāļŦāļĢāļąāļāļāļāļāđāļāļĢāļāļĩāđāļāđāļāļāļāļēāļĢāļāļĢāļ°āļĄāļ§āļĨāļāļĨāđāļāļāļŠāļēāļĢāļāļģāļāļ§āļāļĄāļēāļāđāļāļĒāđāļĄāđāļāđāļāļāļĨāļāļāļļāļāļŠāļđāļ
āđāļŪāđāļĨāļāđāļāļāļ Mistral OCR 3
āļāļĢāļ°āļŠāļīāļāļāļīāļ āļēāļāļŠāļđāļāļāļķāđāļāļāļĒāđāļēāļāļĄāļēāļ: āļāļāļ° Mistral OCR 2 āļāļķāļ 74% āđāļāļāļēāļĢāļāļāļŠāļāļāļ āļēāļĒāđāļ
āļĢāļāļāļĢāļąāļāđāļāļāļŠāļēāļĢāļŦāļĨāļēāļāļŦāļĨāļēāļĒāļāļĢāļ°āđāļ āļ āļĢāļ§āļĄāļāļķāļāļĨāļēāļĒāļĄāļ·āļ āļāļāļĢāđāļĄ āđāļĨāļ°āļŠāđāļāļāļāļļāļāļ āļēāļāļāđāļģ
āļŠāļĢāđāļēāļ Markdown āļāļĢāđāļāļĄ HTML table reconstruction āđāļāļ·āđāļāļĢāļąāļāļĐāļēāđāļāļĢāļāļŠāļĢāđāļēāļāđāļāļāļŠāļēāļĢ
āļāļ§āļēāļĄāļŠāļēāļĄāļēāļĢāļāđāļāļīāļāđāļāļāļāļīāļ
Robust āļāđāļ noise, skew, compression artifacts āđāļĨāļ° low DPI
āļāļķāļāļāđāļāļāļ§āļēāļĄ + āļ āļēāļāļāļąāļāđāļāđāļāļāļŠāļēāļĢāđāļāđāļāļĢāđāļāļĄāļāļąāļ
āļĢāļāļāļĢāļąāļ complex tables āļāļĢāđāļāļĄ colspan/rowspan
āļāļēāļĢāđāļāđāļāļēāļāļāļĢāļīāļāđāļāļāļāļāđāļāļĢ
āđāļŦāļĄāļēāļ°āļŠāļģāļŦāļĢāļąāļ pipeline āļāļĢāļīāļĄāļēāļāļŠāļđāļ āđāļāđāļ āđāļāđāļāđāļāļŦāļāļĩāđ āđāļāļāļŠāļēāļĢāļāļāļīāļāļąāļāļīāļāļēāļĢ āļĢāļēāļĒāļāļēāļāļ§āļīāļāļēāļāļēāļĢ
āđāļāđāđāļ Document AI Playground āđāļāļ·āđāļāđāļāļĨāļ PDF/āļ āļēāļāđāļāđāļ text āļŦāļĢāļ·āļ JSON āđāļāđāļāļąāļāļāļĩ
āļĨāļđāļāļāđāļēāđāļāđāđāļāļ·āđāļ digitize archives, extract structured fields āđāļĨāļ°āļāļĢāļąāļāļāļĢāļļāļ enterprise search
āļāđāļēāļāļĢāļēāļāļēāđāļĨāļ°āļāļēāļĢāđāļāđāļēāļāļķāļ
āļĢāļēāļāļēāđāļāļĩāļĒāļ $2 āļāđāļ 1,000 āļŦāļāđāļē (āļĨāļāđāļŦāļĨāļ·āļ $1 āđāļĄāļ·āđāļāđāļāđ Batch API)
backward compatible āļāļąāļ Mistral OCR 2
āđāļāđāļāļēāļāļāđāļēāļ API āļŦāļĢāļ·āļ Document AI Playground āđāļāđāļāļąāļāļāļĩ
āļāļĢāļ°āđāļāđāļāļāļĩāđāļāđāļāļāļĢāļ°āļ§āļąāļ
āđāļĄāđāļāļ° robust āđāļāđāđāļāļāļŠāļēāļĢāļāļĩāđāđāļŠāļĩāļĒāļŦāļēāļĒāļŦāļāļąāļāļāļēāļāļĒāļąāļāļāđāļāļ preprocessing
āļāļēāļĢ reconstruct āļāļēāļĢāļēāļāļāļąāļāļāđāļāļāļāļēāļāļāđāļāļāļāļĢāļ§āļāļŠāļāļāļāļĨāļĨāļąāļāļāđāļāđāļāļāđāļāđāļāļēāļ downstream
āļāļēāļĢāđāļāđāļāļēāļāđāļ pipeline āļāļĢāļīāļĄāļēāļāļĄāļēāļāļāđāļāļāļ§āļēāļāđāļāļāļāđāļēāļ latency āđāļĨāļ° throughput
https://mistral.ai/news/mistral-ocr-3
Mistral OCR 3 āļāļ·āļāđāļ§āļāļĢāđāļāļąāļāđāļŦāļĄāđāļĨāđāļēāļŠāļļāļāļāļāļāļĢāļ°āļāļ OCR āļāļēāļ Mistral AI āļāļĩāđāļāļđāļāļāļāļāđāļāļāļĄāļēāđāļāļ·āđāļāļĒāļāļĢāļ°āļāļąāļāļāļ§āļēāļĄāđāļĄāđāļāļĒāļģāđāļĨāļ°āļāļ§āļēāļĄāļāļāļāļēāļāđāļāļāļēāļĢāļāļĢāļ°āļĄāļ§āļĨāļāļĨāđāļāļāļŠāļēāļĢāļāļļāļāļāļĢāļ°āđāļ āļ āļāļąāđāļāđāļāđāļāļāļĢāđāļĄāļĢāļēāļāļāļēāļĢ āļŠāđāļāļāļāļļāļāļ āļēāļāļāđāļģ āđāļāļāļāļāļķāļāļĨāļēāļĒāļĄāļ·āļāļāļĩāđāļāđāļēāļāļĒāļēāļ āļāļļāļāđāļāđāļāļŠāļģāļāļąāļāļāļ·āļāļāļĢāļ°āļŠāļīāļāļāļīāļ āļēāļāļāļĩāđāđāļŦāļāļ·āļāļāļ§āđāļē Mistral OCR 2 āļāļĒāđāļēāļāļāļąāļāđāļāļ āđāļāļĒāļĄāļĩāļāļąāļāļĢāļēāļāļāļ°āļĢāļ§āļĄāļāļ§āđāļē 74% āđāļāļāļēāļĢāļāļāļŠāļāļāļ āļēāļĒāđāļāļāļąāļāđāļāļāļŠāļēāļĢāļāļĢāļīāļāļāļēāļāļĨāļđāļāļāđāļēāļāļāļāđāļāļĢ
āļŠāļīāđāļāļāļĩāđāļāļģāđāļŦāđāļĢāļļāđāļāļāļĩāđāđāļāļāđāļāđāļāļāļ·āļāļāļ§āļēāļĄāļŠāļēāļĄāļēāļĢāļāđāļāļāļēāļĢ “āđāļāđāļēāđāļāđāļāļĢāļāļŠāļĢāđāļēāļāđāļāļāļŠāļēāļĢ” āđāļĄāđāđāļāđāđāļāđāļāļķāļāļāđāļāļāļ§āļēāļĄāļāļāļāļĄāļēāđāļāđāļēāļāļąāđāļ Mistral OCR 3 āļŠāļēāļĄāļēāļĢāļāļŠāļĢāđāļēāļ Markdown āļāļĩāđāļĄāļĩ HTML table reconstruction āđāļāļ·āđāļāļĢāļąāļāļĐāļēāđāļāļĢāļāļŠāļĢāđāļēāļāļāļēāļĢāļēāļāļāļĩāđāļāļąāļāļāđāļāļ āđāļāđāļ merged cells, multi-row headers āđāļĨāļ° column hierarchy āļāļķāđāļāđāļāđāļāļŠāļīāđāļāļāļĩāđ OCR āļāļąāđāļ§āđāļāļāļģāđāļāđāļĒāļēāļāļĄāļēāļ āļāļāļāļāļēāļāļāļĩāđāļĒāļąāļāļĢāļāļāļĢāļąāļāļāļēāļĢāļāļķāļāļ āļēāļāļāļĩāđāļāļąāļāļāļĒāļđāđāđāļāđāļāļāļŠāļēāļĢāļāļāļāļĄāļēāļāļĢāđāļāļĄāļāļąāļ āļāļģāđāļŦāđāđāļŦāļĄāļēāļ°āļŠāļģāļŦāļĢāļąāļ workflow āļāļĩāđāļāđāļāļāļāļēāļĢāļāđāļāļĄāļđāļĨāļāļĢāļāļāđāļ§āļāđāļāļ·āđāļāļāđāļāļāđāļŦāđ agent āļŦāļĢāļ·āļāļĢāļ°āļāļ downstream āļāļ·āđāļāđ
āļāļĩāļāļŦāļāļķāđāļāļāļļāļāđāļāđāļāļāļ·āļāļāļ§āļēāļĄāļŠāļēāļĄāļēāļĢāļāđāļāļāļēāļĢāļāļąāļāļāļēāļĢāđāļāļāļŠāļēāļĢāļāļĩāđāļĄāļĩāļāļļāļāļ āļēāļāļāđāļģ āđāļāđāļ āļŠāđāļāļāđāļāļĩāļĒāļ āļ āļēāļāđāļāļĨāļ DPI āļāđāļģ āļŦāļĢāļ·āļāļĄāļĩ noise āļāļķāđāļāđāļāđāļāļāļąāļāļŦāļēāļāļĩāđāļāļāļāđāļāļĢāļāļģāļāļ§āļāļĄāļēāļāļāđāļāļāđāļāļāđāļāļāļēāļāļāļĢāļīāļ āđāļĄāđāļ§āđāļēāļāļ°āđāļāđāļāđāļāļāļŠāļēāļĢāđāļāđāļē āđāļāļāļŠāļēāļĢāļĢāļēāļāļāļēāļĢ āļŦāļĢāļ·āļāđāļāļĨāđāļāļĩāđāļāļđāļāļāđāļēāļĒāļāļēāļāļĄāļ·āļāļāļ·āļ Mistral OCR 3 āļāļđāļāļāļķāļāļĄāļēāđāļŦāđ robust āļāđāļāļŠāļāļēāļāļāļēāļĢāļāđāđāļŦāļĨāđāļēāļāļĩāđāđāļāļĒāđāļāļāļēāļ° āļāļģāđāļŦāđāļāļĨāļĨāļąāļāļāđāļĄāļĩāļāļ§āļēāļĄāđāļŠāļāļĩāļĒāļĢāđāļĨāļ°āļāļĢāđāļāļĄāđāļāđāļāļēāļāļĄāļēāļāļāļķāđāļāđāļāļĢāļ°āļāļąāļ production
āļŠāļļāļāļāđāļēāļĒ Mistral OCR 3 āļĒāļąāļāļĄāļēāļāļĢāđāļāļĄāļĢāļēāļāļēāļāļĩāđāđāļāđāļāļāļąāļāđāļāđāļĄāļēāļ—āđāļāļĩāļĒāļ $2 āļāđāļ 1,000 āļŦāļāđāļē āđāļĨāļ°āļĨāļāđāļŦāļĨāļ·āļ $1 āļāđāļ 1,000 āļŦāļāđāļē āđāļĄāļ·āđāļāđāļāđ Batch API āļāļķāđāļāļāļđāļāļāļ§āđāļēāļĢāļ°āļāļ OCR āđāļāļīāļāļāļēāļāļīāļāļĒāđāļŦāļĨāļēāļĒāđāļāđāļēāļāļĒāđāļēāļāļĄāļĩāļāļąāļĒāļŠāļģāļāļąāļ āļāļģāđāļŦāđāđāļāđāļāļāļąāļ§āđāļĨāļ·āļāļāļāļĩāđāļāđāļēāļŠāļāđāļāļŠāļģāļŦāļĢāļąāļāļāļāļāđāļāļĢāļāļĩāđāļāđāļāļāļāļēāļĢāļāļĢāļ°āļĄāļ§āļĨāļāļĨāđāļāļāļŠāļēāļĢāļāļģāļāļ§āļāļĄāļēāļāđāļāļĒāđāļĄāđāļāđāļāļāļĨāļāļāļļāļāļŠāļđāļ
āđāļŪāđāļĨāļāđāļāļāļ Mistral OCR 3
āļāļĢāļ°āļŠāļīāļāļāļīāļ āļēāļāļŠāļđāļāļāļķāđāļāļāļĒāđāļēāļāļĄāļēāļ: āļāļāļ° Mistral OCR 2 āļāļķāļ 74% āđāļāļāļēāļĢāļāļāļŠāļāļāļ āļēāļĒāđāļ
āļĢāļāļāļĢāļąāļāđāļāļāļŠāļēāļĢāļŦāļĨāļēāļāļŦāļĨāļēāļĒāļāļĢāļ°āđāļ āļ āļĢāļ§āļĄāļāļķāļāļĨāļēāļĒāļĄāļ·āļ āļāļāļĢāđāļĄ āđāļĨāļ°āļŠāđāļāļāļāļļāļāļ āļēāļāļāđāļģ
āļŠāļĢāđāļēāļ Markdown āļāļĢāđāļāļĄ HTML table reconstruction āđāļāļ·āđāļāļĢāļąāļāļĐāļēāđāļāļĢāļāļŠāļĢāđāļēāļāđāļāļāļŠāļēāļĢ
āļāļ§āļēāļĄāļŠāļēāļĄāļēāļĢāļāđāļāļīāļāđāļāļāļāļīāļ
Robust āļāđāļ noise, skew, compression artifacts āđāļĨāļ° low DPI
āļāļķāļāļāđāļāļāļ§āļēāļĄ + āļ āļēāļāļāļąāļāđāļāđāļāļāļŠāļēāļĢāđāļāđāļāļĢāđāļāļĄāļāļąāļ
āļĢāļāļāļĢāļąāļ complex tables āļāļĢāđāļāļĄ colspan/rowspan
āļāļēāļĢāđāļāđāļāļēāļāļāļĢāļīāļāđāļāļāļāļāđāļāļĢ
āđāļŦāļĄāļēāļ°āļŠāļģāļŦāļĢāļąāļ pipeline āļāļĢāļīāļĄāļēāļāļŠāļđāļ āđāļāđāļ āđāļāđāļāđāļāļŦāļāļĩāđ āđāļāļāļŠāļēāļĢāļāļāļīāļāļąāļāļīāļāļēāļĢ āļĢāļēāļĒāļāļēāļāļ§āļīāļāļēāļāļēāļĢ
āđāļāđāđāļ Document AI Playground āđāļāļ·āđāļāđāļāļĨāļ PDF/āļ āļēāļāđāļāđāļ text āļŦāļĢāļ·āļ JSON āđāļāđāļāļąāļāļāļĩ
āļĨāļđāļāļāđāļēāđāļāđāđāļāļ·āđāļ digitize archives, extract structured fields āđāļĨāļ°āļāļĢāļąāļāļāļĢāļļāļ enterprise search
āļāđāļēāļāļĢāļēāļāļēāđāļĨāļ°āļāļēāļĢāđāļāđāļēāļāļķāļ
āļĢāļēāļāļēāđāļāļĩāļĒāļ $2 āļāđāļ 1,000 āļŦāļāđāļē (āļĨāļāđāļŦāļĨāļ·āļ $1 āđāļĄāļ·āđāļāđāļāđ Batch API)
backward compatible āļāļąāļ Mistral OCR 2
āđāļāđāļāļēāļāļāđāļēāļ API āļŦāļĢāļ·āļ Document AI Playground āđāļāđāļāļąāļāļāļĩ
āļāļĢāļ°āđāļāđāļāļāļĩāđāļāđāļāļāļĢāļ°āļ§āļąāļ
āđāļĄāđāļāļ° robust āđāļāđāđāļāļāļŠāļēāļĢāļāļĩāđāđāļŠāļĩāļĒāļŦāļēāļĒāļŦāļāļąāļāļāļēāļāļĒāļąāļāļāđāļāļ preprocessing
āļāļēāļĢ reconstruct āļāļēāļĢāļēāļāļāļąāļāļāđāļāļāļāļēāļāļāđāļāļāļāļĢāļ§āļāļŠāļāļāļāļĨāļĨāļąāļāļāđāļāđāļāļāđāļāđāļāļēāļ downstream
āļāļēāļĢāđāļāđāļāļēāļāđāļ pipeline āļāļĢāļīāļĄāļēāļāļĄāļēāļāļāđāļāļāļ§āļēāļāđāļāļāļāđāļēāļ latency āđāļĨāļ° throughput
https://mistral.ai/news/mistral-ocr-3
ð Mistral OCR 3: āļāđāļēāļ§āļāļĢāļ°āđāļāļāļāļĢāļąāđāļāđāļŦāļāđāļāļāļāļāļēāļĢāļāđāļēāļāđāļāļāļŠāļēāļĢāļāđāļ§āļĒ AI
Mistral OCR 3 āļāļ·āļāđāļ§āļāļĢāđāļāļąāļāđāļŦāļĄāđāļĨāđāļēāļŠāļļāļāļāļāļāļĢāļ°āļāļ OCR āļāļēāļ Mistral AI āļāļĩāđāļāļđāļāļāļāļāđāļāļāļĄāļēāđāļāļ·āđāļāļĒāļāļĢāļ°āļāļąāļāļāļ§āļēāļĄāđāļĄāđāļāļĒāļģāđāļĨāļ°āļāļ§āļēāļĄāļāļāļāļēāļāđāļāļāļēāļĢāļāļĢāļ°āļĄāļ§āļĨāļāļĨāđāļāļāļŠāļēāļĢāļāļļāļāļāļĢāļ°āđāļ āļ āļāļąāđāļāđāļāđāļāļāļĢāđāļĄāļĢāļēāļāļāļēāļĢ āļŠāđāļāļāļāļļāļāļ āļēāļāļāđāļģ āđāļāļāļāļāļķāļāļĨāļēāļĒāļĄāļ·āļāļāļĩāđāļāđāļēāļāļĒāļēāļ āļāļļāļāđāļāđāļāļŠāļģāļāļąāļāļāļ·āļāļāļĢāļ°āļŠāļīāļāļāļīāļ āļēāļāļāļĩāđāđāļŦāļāļ·āļāļāļ§āđāļē Mistral OCR 2 āļāļĒāđāļēāļāļāļąāļāđāļāļ āđāļāļĒāļĄāļĩāļāļąāļāļĢāļēāļāļāļ°āļĢāļ§āļĄāļāļ§āđāļē 74% āđāļāļāļēāļĢāļāļāļŠāļāļāļ āļēāļĒāđāļāļāļąāļāđāļāļāļŠāļēāļĢāļāļĢāļīāļāļāļēāļāļĨāļđāļāļāđāļēāļāļāļāđāļāļĢ
āļŠāļīāđāļāļāļĩāđāļāļģāđāļŦāđāļĢāļļāđāļāļāļĩāđāđāļāļāđāļāđāļāļāļ·āļāļāļ§āļēāļĄāļŠāļēāļĄāļēāļĢāļāđāļāļāļēāļĢ “āđāļāđāļēāđāļāđāļāļĢāļāļŠāļĢāđāļēāļāđāļāļāļŠāļēāļĢ” āđāļĄāđāđāļāđāđāļāđāļāļķāļāļāđāļāļāļ§āļēāļĄāļāļāļāļĄāļēāđāļāđāļēāļāļąāđāļ Mistral OCR 3 āļŠāļēāļĄāļēāļĢāļāļŠāļĢāđāļēāļ Markdown āļāļĩāđāļĄāļĩ HTML table reconstruction āđāļāļ·āđāļāļĢāļąāļāļĐāļēāđāļāļĢāļāļŠāļĢāđāļēāļāļāļēāļĢāļēāļāļāļĩāđāļāļąāļāļāđāļāļ āđāļāđāļ merged cells, multi-row headers āđāļĨāļ° column hierarchy āļāļķāđāļāđāļāđāļāļŠāļīāđāļāļāļĩāđ OCR āļāļąāđāļ§āđāļāļāļģāđāļāđāļĒāļēāļāļĄāļēāļ āļāļāļāļāļēāļāļāļĩāđāļĒāļąāļāļĢāļāļāļĢāļąāļāļāļēāļĢāļāļķāļāļ āļēāļāļāļĩāđāļāļąāļāļāļĒāļđāđāđāļāđāļāļāļŠāļēāļĢāļāļāļāļĄāļēāļāļĢāđāļāļĄāļāļąāļ āļāļģāđāļŦāđāđāļŦāļĄāļēāļ°āļŠāļģāļŦāļĢāļąāļ workflow āļāļĩāđāļāđāļāļāļāļēāļĢāļāđāļāļĄāļđāļĨāļāļĢāļāļāđāļ§āļāđāļāļ·āđāļāļāđāļāļāđāļŦāđ agent āļŦāļĢāļ·āļāļĢāļ°āļāļ downstream āļāļ·āđāļāđ
āļāļĩāļāļŦāļāļķāđāļāļāļļāļāđāļāđāļāļāļ·āļāļāļ§āļēāļĄāļŠāļēāļĄāļēāļĢāļāđāļāļāļēāļĢāļāļąāļāļāļēāļĢāđāļāļāļŠāļēāļĢāļāļĩāđāļĄāļĩāļāļļāļāļ āļēāļāļāđāļģ āđāļāđāļ āļŠāđāļāļāđāļāļĩāļĒāļ āļ āļēāļāđāļāļĨāļ DPI āļāđāļģ āļŦāļĢāļ·āļāļĄāļĩ noise āļāļķāđāļāđāļāđāļāļāļąāļāļŦāļēāļāļĩāđāļāļāļāđāļāļĢāļāļģāļāļ§āļāļĄāļēāļāļāđāļāļāđāļāļāđāļāļāļēāļāļāļĢāļīāļ āđāļĄāđāļ§āđāļēāļāļ°āđāļāđāļāđāļāļāļŠāļēāļĢāđāļāđāļē āđāļāļāļŠāļēāļĢāļĢāļēāļāļāļēāļĢ āļŦāļĢāļ·āļāđāļāļĨāđāļāļĩāđāļāļđāļāļāđāļēāļĒāļāļēāļāļĄāļ·āļāļāļ·āļ Mistral OCR 3 āļāļđāļāļāļķāļāļĄāļēāđāļŦāđ robust āļāđāļāļŠāļāļēāļāļāļēāļĢāļāđāđāļŦāļĨāđāļēāļāļĩāđāđāļāļĒāđāļāļāļēāļ° āļāļģāđāļŦāđāļāļĨāļĨāļąāļāļāđāļĄāļĩāļāļ§āļēāļĄāđāļŠāļāļĩāļĒāļĢāđāļĨāļ°āļāļĢāđāļāļĄāđāļāđāļāļēāļāļĄāļēāļāļāļķāđāļāđāļāļĢāļ°āļāļąāļ production
āļŠāļļāļāļāđāļēāļĒ Mistral OCR 3 āļĒāļąāļāļĄāļēāļāļĢāđāļāļĄāļĢāļēāļāļēāļāļĩāđāđāļāđāļāļāļąāļāđāļāđāļĄāļēāļ—āđāļāļĩāļĒāļ $2 āļāđāļ 1,000 āļŦāļāđāļē āđāļĨāļ°āļĨāļāđāļŦāļĨāļ·āļ $1 āļāđāļ 1,000 āļŦāļāđāļē āđāļĄāļ·āđāļāđāļāđ Batch API āļāļķāđāļāļāļđāļāļāļ§āđāļēāļĢāļ°āļāļ OCR āđāļāļīāļāļāļēāļāļīāļāļĒāđāļŦāļĨāļēāļĒāđāļāđāļēāļāļĒāđāļēāļāļĄāļĩāļāļąāļĒāļŠāļģāļāļąāļ āļāļģāđāļŦāđāđāļāđāļāļāļąāļ§āđāļĨāļ·āļāļāļāļĩāđāļāđāļēāļŠāļāđāļāļŠāļģāļŦāļĢāļąāļāļāļāļāđāļāļĢāļāļĩāđāļāđāļāļāļāļēāļĢāļāļĢāļ°āļĄāļ§āļĨāļāļĨāđāļāļāļŠāļēāļĢāļāļģāļāļ§āļāļĄāļēāļāđāļāļĒāđāļĄāđāļāđāļāļāļĨāļāļāļļāļāļŠāļđāļ
â
āđāļŪāđāļĨāļāđāļāļāļ Mistral OCR 3
âĄïļ āļāļĢāļ°āļŠāļīāļāļāļīāļ āļēāļāļŠāļđāļāļāļķāđāļāļāļĒāđāļēāļāļĄāļēāļ: āļāļāļ° Mistral OCR 2 āļāļķāļ 74% āđāļāļāļēāļĢāļāļāļŠāļāļāļ āļēāļĒāđāļ
âĄïļ āļĢāļāļāļĢāļąāļāđāļāļāļŠāļēāļĢāļŦāļĨāļēāļāļŦāļĨāļēāļĒāļāļĢāļ°āđāļ āļ āļĢāļ§āļĄāļāļķāļāļĨāļēāļĒāļĄāļ·āļ āļāļāļĢāđāļĄ āđāļĨāļ°āļŠāđāļāļāļāļļāļāļ āļēāļāļāđāļģ
âĄïļ āļŠāļĢāđāļēāļ Markdown āļāļĢāđāļāļĄ HTML table reconstruction āđāļāļ·āđāļāļĢāļąāļāļĐāļēāđāļāļĢāļāļŠāļĢāđāļēāļāđāļāļāļŠāļēāļĢ
â
āļāļ§āļēāļĄāļŠāļēāļĄāļēāļĢāļāđāļāļīāļāđāļāļāļāļīāļ
âĄïļ Robust āļāđāļ noise, skew, compression artifacts āđāļĨāļ° low DPI
âĄïļ āļāļķāļāļāđāļāļāļ§āļēāļĄ + āļ āļēāļāļāļąāļāđāļāđāļāļāļŠāļēāļĢāđāļāđāļāļĢāđāļāļĄāļāļąāļ
âĄïļ āļĢāļāļāļĢāļąāļ complex tables āļāļĢāđāļāļĄ colspan/rowspan
â
āļāļēāļĢāđāļāđāļāļēāļāļāļĢāļīāļāđāļāļāļāļāđāļāļĢ
âĄïļ āđāļŦāļĄāļēāļ°āļŠāļģāļŦāļĢāļąāļ pipeline āļāļĢāļīāļĄāļēāļāļŠāļđāļ āđāļāđāļ āđāļāđāļāđāļāļŦāļāļĩāđ āđāļāļāļŠāļēāļĢāļāļāļīāļāļąāļāļīāļāļēāļĢ āļĢāļēāļĒāļāļēāļāļ§āļīāļāļēāļāļēāļĢ
âĄïļ āđāļāđāđāļ Document AI Playground āđāļāļ·āđāļāđāļāļĨāļ PDF/āļ āļēāļāđāļāđāļ text āļŦāļĢāļ·āļ JSON āđāļāđāļāļąāļāļāļĩ
âĄïļ āļĨāļđāļāļāđāļēāđāļāđāđāļāļ·āđāļ digitize archives, extract structured fields āđāļĨāļ°āļāļĢāļąāļāļāļĢāļļāļ enterprise search
â
āļāđāļēāļāļĢāļēāļāļēāđāļĨāļ°āļāļēāļĢāđāļāđāļēāļāļķāļ
âĄïļ āļĢāļēāļāļēāđāļāļĩāļĒāļ $2 āļāđāļ 1,000 āļŦāļāđāļē (āļĨāļāđāļŦāļĨāļ·āļ $1 āđāļĄāļ·āđāļāđāļāđ Batch API)
âĄïļ backward compatible āļāļąāļ Mistral OCR 2
âĄïļ āđāļāđāļāļēāļāļāđāļēāļ API āļŦāļĢāļ·āļ Document AI Playground āđāļāđāļāļąāļāļāļĩ
âžïļ āļāļĢāļ°āđāļāđāļāļāļĩāđāļāđāļāļāļĢāļ°āļ§āļąāļ
â āđāļĄāđāļāļ° robust āđāļāđāđāļāļāļŠāļēāļĢāļāļĩāđāđāļŠāļĩāļĒāļŦāļēāļĒāļŦāļāļąāļāļāļēāļāļĒāļąāļāļāđāļāļ preprocessing
â āļāļēāļĢ reconstruct āļāļēāļĢāļēāļāļāļąāļāļāđāļāļāļāļēāļāļāđāļāļāļāļĢāļ§āļāļŠāļāļāļāļĨāļĨāļąāļāļāđāļāđāļāļāđāļāđāļāļēāļ downstream
â āļāļēāļĢāđāļāđāļāļēāļāđāļ pipeline āļāļĢāļīāļĄāļēāļāļĄāļēāļāļāđāļāļāļ§āļēāļāđāļāļāļāđāļēāļ latency āđāļĨāļ° throughput
https://mistral.ai/news/mistral-ocr-3
0 āļāļ§āļēāļĄāļāļīāļāđāļŦāđāļ
0 āļāļēāļĢāđāļāđāļāļāļąāļ
46 āļĄāļļāļĄāļĄāļāļ
0 āļĢāļĩāļ§āļīāļ§