Optical Character Recognition (OCR)

Optical Character Recognition or Optical Character Reader (OCR) is the electronic or mechanical conversion of images of typed, handwritten or printed text into machine-encoded text, whether from a scanned document, a photo of a document, a scene-photo (for example the text on signs and billboards in a landscape photo, license plates in cars...) or from subtitle text superimposed on an image (for example: from a television broadcast)

Papers

Recently Added Most Hyped Most Active Needs Verification Most Verified

Showing 51–100 of 1209 papers

Title	Date	Tasks	Status	Hype
GlyphControl: Glyph Conditional Control for Visual Text Generation	May 29, 2023	Optical Character Recognition (OCR)Text Generation	CodeCode Available	2
OCRBench: On the Hidden Mystery of OCR in Large Multimodal Models	May 13, 2023	Key Information ExtractionNutrition	CodeCode Available	2
GlyphDraw: Seamlessly Rendering Text with Intricate Spatial Structures in Text-to-Image Generation	Mar 31, 2023	Image GenerationOptical Character Recognition (OCR)	CodeCode Available	2
IMKGA-SM: Interpretable Multimodal Knowledge Graph Answer Prediction via Sequence Modeling	Jan 6, 2023	Link PredictionOptical Character Recognition	CodeCode Available	2
Text Detection Forgot About Document OCR	Oct 14, 2022	Optical Character RecognitionOptical Character Recognition (OCR)	CodeCode Available	2
Pix2Struct: Screenshot Parsing as Pretraining for Visual Language Understanding	Oct 7, 2022	Chart Question AnsweringDiversity	CodeCode Available	2
When Counting Meets HMER: Counting-Aware Network for Handwritten Mathematical Expression Recognition	Jul 23, 2022	DecoderHandwritten Mathmatical Expression Recognition	CodeCode Available	2
Delivering Document Conversion as a Cloud Service with High Throughput and Responsiveness	Jun 1, 2022	CPUdocument understanding	CodeCode Available	2
GIT: A Generative Image-to-text Transformer for Vision and Language	May 27, 2022	DecoderImage Captioning	CodeCode Available	2
PP-OCRv2: Bag of Tricks for Ultra Lightweight OCR System	Sep 7, 2021	Optical Character RecognitionOptical Character Recognition (OCR)	CodeCode Available	2
PP-OCR: A Practical Ultra Lightweight OCR System	Sep 21, 2020	Computational EfficiencyOptical Character Recognition	CodeCode Available	2
Real-time Scene Text Detection with Differentiable Binarization	Nov 20, 2019	BinarizationOptical Character Recognition (OCR)	CodeCode Available	2
Uni-MuMER: Unified Multi-Task Fine-Tuning of Vision-Language Model for Handwritten Mathematical Expression Recognition	May 29, 2025	Handwritten Mathmatical Expression RecognitionLanguage Modeling	CodeCode Available	1
ChatVLA-2: Vision-Language-Action Model with Open-World Embodied Reasoning from Pretrained Knowledge	May 28, 2025	Imitation LearningMath	CodeCode Available	1
VidText: Towards Comprehensive Evaluation for Video Text Understanding	May 28, 2025	Multimodal ReasoningOptical Character Recognition (OCR)	CodeCode Available	1
Unifying Multimodal Large Language Model Capabilities and Modalities via Model Merging	May 26, 2025	Language ModelingLanguage Modelling	CodeCode Available	1
ReadBench: Measuring the Dense Text Visual Reading Ability of Vision-Language Models	May 25, 2025	Optical Character Recognition (OCR)Reading Comprehension	CodeCode Available	1
ARB: A Comprehensive Arabic Multimodal Reasoning Benchmark	May 22, 2025	document understandingMultimodal Reasoning	CodeCode Available	1
Reasoning-OCR: Can Large Multimodal Models Solve Complex Logical Reasoning Problems from OCR Cues?	May 19, 2025	Logical ReasoningOptical Character Recognition	CodeCode Available	1
LogicOCR: Do Your Large Multimodal Models Excel at Logical Reasoning on Text-Rich Images?	May 18, 2025	Logical ReasoningMultimodal Reasoning	CodeCode Available	1
Multimodal LLMs for OCR, OCR Post-Correction, and Named Entity Recognition in Historical Documents	Apr 1, 2025	named-entity-recognitionNamed Entity Recognition	CodeCode Available	1
PM4Bench: A Parallel Multilingual Multi-Modal Multi-task Benchmark for Large Vision Language Model	Mar 24, 2025	Language ModelingLanguage Modelling	CodeCode Available	1
Benchmarking Vision-Language Models on Optical Character Recognition in Dynamic Video Environments	Feb 10, 2025	BenchmarkingOptical Character Recognition	CodeCode Available	1
Towards Making Flowchart Images Machine Interpretable	Jan 29, 2025	Code GenerationOptical Character Recognition (OCR)	CodeCode Available	1
Ocean-OCR: Towards General OCR Application via a Vision-Language Model	Jan 26, 2025	document understandingLanguage Modeling	CodeCode Available	1
MathReader : Text-to-Speech for Mathematical Documents	Jan 13, 2025	Optical Character Recognition (OCR)text-to-speech	CodeCode Available	1
Geometry Restoration and Dewarping of Camera-Captured Document Images	Jan 6, 2025	Optical Character RecognitionOptical Character Recognition (OCR)	CodeCode Available	1
DocLayLLM: An Efficient Multi-modal Extension of Large Language Models for Text-rich Document Understanding	Jan 1, 2025	document understandingOptical Character Recognition (OCR)	CodeCode Available	1
Awaker2.5-VL: Stably Scaling MLLMs with Parameter-Efficient Mixture of Experts	Nov 16, 2024	Mixture-of-ExpertsOptical Character Recognition (OCR)	CodeCode Available	1
Toxicity of the Commons: Curating Open-Source Pre-Training Data	Oct 29, 2024	Optical Character RecognitionOptical Character Recognition (OCR)	CodeCode Available	1
Stratified Domain Adaptation: A Progressive Self-Training Approach for Scene Text Recognition	Oct 13, 2024	Domain AdaptationOptical Character Recognition (OCR)	CodeCode Available	1
Hespi: A pipeline for automatically detecting information from hebarium specimen sheets	Oct 11, 2024	Handwritten Text RecognitionHTR	CodeCode Available	1
One Model is All You Need: ByT5-Sanskrit, a Unified Model for Sanskrit NLP Tasks	Sep 20, 2024	AllDependency Parsing	CodeCode Available	1
Enhancing License Plate Super-Resolution: A Layout-Aware and Character-Driven Approach	Aug 27, 2024	License Plate RecognitionOptical Character Recognition	CodeCode Available	1
DocLayLLM: An Efficient and Effective Multi-modal Extension of Large Language Models for Text-rich Document Understanding	Aug 27, 2024	document understandingOptical Character Recognition (OCR)	CodeCode Available	1
Focus, Distinguish, and Prompt: Unleashing CLIP for Efficient and Flexible Scene Text Retrieval	Aug 1, 2024	AttributeOptical Character Recognition	CodeCode Available	1
Image-text matching for large-scale book collections	Jul 29, 2024	Image-text matchingOptical Character Recognition (OCR)	CodeCode Available	1
VisFocus: Prompt-Guided Vision Encoders for OCR-Free Dense Document Understanding	Jul 17, 2024	document understandingOptical Character Recognition (OCR)	CodeCode Available	1
FlowLearn: Evaluating Large Vision-Language Models on Flowchart Understanding	Jul 6, 2024	Optical Character Recognition (OCR)Visual Question Answering (VQA)	CodeCode Available	1
CORU: Comprehensive Post-OCR Parsing and Receipt Understanding Dataset	Jun 6, 2024	object-detectionObject Detection	CodeCode Available	1
From Text to Pixel: Advancing Long-Context Understanding in MLLMs	May 23, 2024	Language ModelingLanguage Modelling	CodeCode Available	1
ViOCRVQA: Novel Benchmark Dataset and Vision Reader for Visual Question Answering by Understanding Vietnamese Text in Images	Apr 29, 2024	Optical Character RecognitionOptical Character Recognition (OCR)	CodeCode Available	1
CMULAB: An Open-Source Framework for Training and Deployment of Natural Language Processing Models	Apr 3, 2024	Optical Character Recognition (OCR)speech-recognition	CodeCode Available	1
ChroniclingAmericaQA: A Large-scale Question Answering Dataset based on Historical American Newspaper Pages	Mar 26, 2024	Machine Reading ComprehensionOptical Character Recognition (OCR)	CodeCode Available	1
PEaCE: A Chemistry-Oriented Dataset for Optical Character Recognition on Scientific Documents	Mar 23, 2024	ArticlesOptical Character Recognition	CodeCode Available	1
ODM: A Text-Image Further Alignment Pre-training Approach for Scene Text Detection and Spotting	Mar 1, 2024	Optical Character RecognitionOptical Character Recognition (OCR)	CodeCode Available	1
TEXTRON: Weakly Supervised Multilingual Text Detection through Data Programming	Feb 15, 2024	Optical Character Recognition (OCR)Text Detection	CodeCode Available	1
ClusterTabNet: Supervised clustering method for table detection and table structure recognition	Feb 12, 2024	ClusteringOptical Character Recognition (OCR)	CodeCode Available	1
An Empirical Study of Scaling Law for OCR	Dec 29, 2023	Optical Character RecognitionOptical Character Recognition (OCR)	CodeCode Available	1
When Graph Data Meets Multimodal: A New Paradigm for Graph Understanding and Reasoning	Dec 16, 2023	Optical Character Recognition (OCR)	CodeCode Available	1

Show:10 25 50

← PrevPage 2 of 25Next →

All datasets Benchmarking Chinese Text Recognition: Datasets, Baselines, and an Empirical Study VideoDB's OCR Benchmark Public Collection FSNS - Test I2L-140K SUT im2latex-100k

Benchmark Results

#	Model	Metric	Claimed	Verified	Status
1	DTrOCR	Accuracy (%)	89.6	—	Unverified
2	DTrOCR 105M	Accuracy (%)	89.6	—	Unverified
3	MaskOCR-L	Accuracy (%)	82.6	—	Unverified
4	TransOCR	Accuracy (%)	72.8	—	Unverified
5	SRN	Accuracy (%)	65	—	Unverified
6	MORAN	Accuracy (%)	64.3	—	Unverified
7	SEED	Accuracy (%)	61.2	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	GPT-4o	Average Accuracy	76.22	—	Unverified
2	Gemini-1.5 Pro	Average Accuracy	76.13	—	Unverified
3	Claude-3 Sonnet	Average Accuracy	67.71	—	Unverified
4	RapidOCR	Average Accuracy	56.98	—	Unverified
5	EasyOCR	Average Accuracy	49.3	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	STREET	Sequence error	27.54	—	Unverified
2	SEE	Sequence error	22	—	Unverified
3	AttentionOCR_Inception-resnet-v2_Location	Sequence error	15.8	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	I2L-NOPOOL	BLEU	89.09	—	Unverified
2	I2L-STRIPS	BLEU	89	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	Tesseract	Character Error Rate (CER)	0.08	—	Unverified
2	EasyOCR	Character Error Rate (CER)	0.07	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	I2L-STRIPS	BLEU	88.86	—	Unverified