Optical Character Recognition (OCR)

Optical Character Recognition or Optical Character Reader (OCR) is the electronic or mechanical conversion of images of typed, handwritten or printed text into machine-encoded text, whether from a scanned document, a photo of a document, a scene-photo (for example the text on signs and billboards in a landscape photo, license plates in cars...) or from subtitle text superimposed on an image (for example: from a television broadcast)

Papers

Recently Added Most Hyped Most Active Needs Verification Most Verified

Showing 1–50 of 1209 papers

Title	Date	Tasks	Status	Hype
MinerU: An Open-Source Solution for Precise Document Content Extraction	Sep 27, 2024	DiversityOptical Character Recognition (OCR)	CodeCode Available	16
MiniCPM-V: A GPT-4V Level MLLM on Your Phone	Aug 3, 2024	HallucinationMultiple-choice	CodeCode Available	12
SWIFT:A Scalable lightWeight Infrastructure for Fine-Tuning	Aug 10, 2024	HallucinationOptical Character Recognition	CodeCode Available	11
General OCR Theory: Towards OCR-2.0 via a Unified End-to-end Model	Sep 3, 2024	DecoderMath	CodeCode Available	9
DeepSeek-VL: Towards Real-World Vision-Language Understanding	Mar 8, 2024	ChatbotLanguage Modelling	CodeCode Available	7
SPHINX-X: Scaling Data and Parameters for a Family of Multi-modal Large Language Models	Feb 8, 2024	BenchmarkingDiversity	CodeCode Available	7
TextMonkey: An OCR-Free Large Multimodal Model for Understanding Document	Mar 7, 2024	document understandingKey Information Extraction	CodeCode Available	5
Kimi-VL Technical Report	Apr 10, 2025	Long-Context UnderstandingMathematical Reasoning	CodeCode Available	5
Nougat: Neural Optical Understanding for Academic Documents	Aug 25, 2023	Optical Character RecognitionOptical Character Recognition (OCR)	CodeCode Available	5
Focus Anywhere for Fine-grained Multi-page Document Understanding	May 23, 2024	document understandingOptical Character Recognition (OCR)	CodeCode Available	5
MixTex: Unambiguous Recognition Should Not Rely Solely on Real Data	Jun 24, 2024	Data AugmentationOptical Character Recognition (OCR)	CodeCode Available	5
LLaMA-Adapter V2: Parameter-Efficient Visual Instruction Model	Apr 28, 2023	Instruction Followingmodel	CodeCode Available	5
On Path to Multimodal Historical Reasoning: HistBench and HistAgent	May 26, 2025	Optical Character Recognition (OCR)	CodeCode Available	4
OCRBench v2: An Improved Benchmark for Evaluating Large Multimodal Models on Visual Text Localization and Reasoning	Dec 31, 2024	BenchmarkingLogical Reasoning	CodeCode Available	4
MMMU-Pro: A More Robust Multi-discipline Multimodal Understanding Benchmark	Sep 4, 2024	Optical Character Recognition (OCR)	CodeCode Available	4
AnyText: Multilingual Visual Text Generation And Editing	Nov 6, 2023	Image GenerationOptical Character Recognition (OCR)	CodeCode Available	4
An End-to-End Trainable Neural Network for Image-based Sequence Recognition and Its Application to Scene Text Recognition	Jul 21, 2015	Optical Character Recognition (OCR)Scene Text Recognition	CodeCode Available	4
PaliGemma 2: A Family of Versatile VLMs for Transfer	Dec 4, 2024	Language ModelingLanguage Modelling	CodeCode Available	3
Image-to-Markup Generation with Coarse-to-Fine Attention	Sep 16, 2016	DecoderOptical Character Recognition (OCR)	CodeCode Available	3
MM-Vet v2: A Challenging Benchmark to Evaluate Large Multimodal Models for Integrated Capabilities	Aug 1, 2024	MathMM-Vet	CodeCode Available	3
Vary: Scaling up the Vision Vocabulary for Large Vision-Language Models	Dec 11, 2023	Chart UnderstandingDecoder	CodeCode Available	3
From Panels to Prose: Generating Literary Narratives from Comics	Mar 30, 2025	Optical Character Recognition (OCR)	CodeCode Available	3
Florence-VL: Enhancing Vision-Language Models with Generative Vision Encoder and Depth-Breadth Fusion	Dec 5, 2024	Contrastive LearningHallucination	CodeCode Available	3
OCR-free Document Understanding Transformer	Nov 30, 2021	Document Image Classificationdocument understanding	CodeCode Available	3
PP-OCRv2: Bag of Tricks for Ultra Lightweight OCR System	Sep 7, 2021	Optical Character RecognitionOptical Character Recognition (OCR)	CodeCode Available	2
OCRBench: On the Hidden Mystery of OCR in Large Multimodal Models	May 13, 2023	Key Information ExtractionNutrition	CodeCode Available	2
Real-time Scene Text Detection with Differentiable Binarization	Nov 20, 2019	BinarizationOptical Character Recognition (OCR)	CodeCode Available	2
2.5 Years in Class: A Multimodal Textbook for Vision-Language Pretraining	Jan 1, 2025	Optical Character Recognition (OCR)	CodeCode Available	2
Pix2Struct: Screenshot Parsing as Pretraining for Visual Language Understanding	Oct 7, 2022	Chart Question AnsweringDiversity	CodeCode Available	2
PP-OCR: A Practical Ultra Lightweight OCR System	Sep 21, 2020	Computational EfficiencyOptical Character Recognition	CodeCode Available	2
NAF-DPM: A Nonlinear Activation-Free Diffusion Probabilistic Model for Document Enhancement	Apr 8, 2024	BinarizationDocument Enhancement	CodeCode Available	2
Delivering Document Conversion as a Cloud Service with High Throughput and Responsiveness	Jun 1, 2022	CPUdocument understanding	CodeCode Available	2
OCR Hinders RAG: Evaluating the Cascading Impact of OCR on Retrieval-Augmented Generation	Dec 3, 2024	Optical Character RecognitionOptical Character Recognition (OCR)	CodeCode Available	2
Reviving Cultural Heritage: A Novel Approach for Comprehensive Historical Document Restoration	Jul 7, 2025	Optical Character Recognition (OCR)	CodeCode Available	2
MathVista: Evaluating Mathematical Reasoning of Foundation Models in Visual Contexts	Oct 3, 2023	ChatbotImage Captioning	CodeCode Available	2
Let's Fuse Step by Step: A Generative Fusion Decoding Algorithm with LLMs for Multi-modal Text Recognition	May 23, 2024	Automatic Speech RecognitionAutomatic Speech Recognition (ASR)	CodeCode Available	2
MegaHan97K: A Large-Scale Dataset for Mega-Category Chinese Character Recognition with over 97K Categories	Jun 5, 2025	BenchmarkingOptical Character Recognition	CodeCode Available	2
GUICourse: From General Vision Language Models to Versatile GUI Agents	Jun 17, 2024	Natural Language Visual GroundingOptical Character Recognition (OCR)	CodeCode Available	2
IMKGA-SM: Interpretable Multimodal Knowledge Graph Answer Prediction via Sequence Modeling	Jan 6, 2023	Link PredictionOptical Character Recognition	CodeCode Available	2
GlyphControl: Glyph Conditional Control for Visual Text Generation	May 29, 2023	Optical Character Recognition (OCR)Text Generation	CodeCode Available	2
GlyphDraw: Seamlessly Rendering Text with Intricate Spatial Structures in Text-to-Image Generation	Mar 31, 2023	Image GenerationOptical Character Recognition (OCR)	CodeCode Available	2
Arabic-Nougat: Fine-Tuning Vision Transformers for Arabic OCR and Markdown Extraction	Nov 19, 2024	document understandingOptical Character Recognition (OCR)	CodeCode Available	2
Institutional Books 1.0: A 242B token dataset from Harvard Library's collections, refined for accuracy and usability	Jun 10, 2025	Optical Character Recognition (OCR)	CodeCode Available	2
BLIVA: A Simple Multimodal LLM for Better Handling of Text-Rich Visual Questions	Aug 19, 2023	MMEOptical Character Recognition (OCR)	CodeCode Available	2
General Detection-based Text Line Recognition	Sep 25, 2024	HTROptical Character Recognition (OCR)	CodeCode Available	2
LLaVAR: Enhanced Visual Instruction Tuning for Text-Rich Image Understanding	Jun 29, 2023	16kImage Captioning	CodeCode Available	2
An Empirical Study of Scaling Law for Scene Text Recognition	Jan 1, 2024	Optical Character Recognition (OCR)Scene Text Recognition	CodeCode Available	2
An Approach for Air Drawing Using Background Subtraction and Contour Extraction	Mar 3, 2025	Hand DetectionOptical Character Recognition (OCR)	CodeCode Available	2
MouSi: Poly-Visual-Expert Vision-Language Models	Jan 30, 2024	Image SegmentationImage-text matching	CodeCode Available	2
A Bounding Box is Worth One Token: Interleaving Layout and Text in a Large Language Model for Document Understanding	Jul 2, 2024	document understandingKey Information Extraction	CodeCode Available	2

Show:10 25 50

← PrevPage 1 of 25Next →

All datasets Benchmarking Chinese Text Recognition: Datasets, Baselines, and an Empirical Study VideoDB's OCR Benchmark Public Collection FSNS - Test I2L-140K SUT im2latex-100k

Benchmark Results

#	Model	Metric	Claimed	Verified	Status
1	DTrOCR	Accuracy (%)	89.6	—	Unverified
2	DTrOCR 105M	Accuracy (%)	89.6	—	Unverified
3	MaskOCR-L	Accuracy (%)	82.6	—	Unverified
4	TransOCR	Accuracy (%)	72.8	—	Unverified
5	SRN	Accuracy (%)	65	—	Unverified
6	MORAN	Accuracy (%)	64.3	—	Unverified
7	SEED	Accuracy (%)	61.2	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	GPT-4o	Average Accuracy	76.22	—	Unverified
2	Gemini-1.5 Pro	Average Accuracy	76.13	—	Unverified
3	Claude-3 Sonnet	Average Accuracy	67.71	—	Unverified
4	RapidOCR	Average Accuracy	56.98	—	Unverified
5	EasyOCR	Average Accuracy	49.3	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	STREET	Sequence error	27.54	—	Unverified
2	SEE	Sequence error	22	—	Unverified
3	AttentionOCR_Inception-resnet-v2_Location	Sequence error	15.8	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	I2L-NOPOOL	BLEU	89.09	—	Unverified
2	I2L-STRIPS	BLEU	89	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	Tesseract	Character Error Rate (CER)	0.08	—	Unverified
2	EasyOCR	Character Error Rate (CER)	0.07	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	I2L-STRIPS	BLEU	88.86	—	Unverified