Optical Character Recognition (OCR)

Optical Character Recognition or Optical Character Reader (OCR) is the electronic or mechanical conversion of images of typed, handwritten or printed text into machine-encoded text, whether from a scanned document, a photo of a document, a scene-photo (for example the text on signs and billboards in a landscape photo, license plates in cars...) or from subtitle text superimposed on an image (for example: from a television broadcast)

Papers

Recently Added Most Hyped Most Active Needs Verification Most Verified

Showing 1–50 of 1209 papers

Title	Date	Tasks	Status	Hype
DeQA-Doc: Adapting DeQA-Score to Document Image Quality Assessment	Jul 17, 2025	Document Image Quality AssessmentImage Quality Assessment	CodeCode Available	0
VisionThink: Smart and Efficient Vision Language Model via Reinforcement Learning	Jul 17, 2025	Language ModelingLanguage Modelling	CodeCode Available	0
Seeing the Signs: A Survey of Edge-Deployable OCR Models for Billboard Visibility Analysis	Jul 15, 2025	MarketingOptical Character Recognition	—Unverified	0
A Survey on MLLM-based Visually Rich Document Understanding: Methods, Challenges, and Emerging Trends	Jul 14, 2025	document understandingOptical Character Recognition	—Unverified	0
Orchestrator-Agent Trust: A Modular Agentic AI Visual Classification System with Trust-Aware Orchestration and RAG-Based Reasoning	Jul 9, 2025	BenchmarkingImage Retrieval	CodeCode Available	0
Design and Implementation of an OCR-Powered Pipeline for Table Extraction from Invoices	Jul 9, 2025	Boundary DetectionOptical Character Recognition (OCR)	—Unverified	0
TextPixs: Glyph-Conditioned Diffusion with Character-Aware Attention and OCR-Guided Supervision	Jul 8, 2025	Image GenerationOptical Character Recognition (OCR)	—Unverified	0
PaddleOCR 3.0 Technical Report	Jul 8, 2025	document understandingKey Information Extraction	—Unverified	0
Reviving Cultural Heritage: A Novel Approach for Comprehensive Historical Document Restoration	Jul 7, 2025	Optical Character Recognition (OCR)	CodeCode Available	2
Logios : An open source Greek Polytonic Optical Character Recognition system	Jun 26, 2025	Optical Character RecognitionOptical Character Recognition (OCR)	—Unverified	0
DrishtiKon: Multi-Granular Visual Grounding for Text-Rich Document Images	Jun 26, 2025	document understandingOptical Character Recognition (OCR)	CodeCode Available	0
Engineering RAG Systems for Real-World Applications: Design, Development, and Evaluation	Jun 25, 2025	Optical Character Recognition (OCR)RAG	—Unverified	0
Seeing is Believing? Mitigating OCR Hallucinations in Multimodal Large Language Models	Jun 25, 2025	document understandingHallucination	—Unverified	0
Unfolding the Past: A Comprehensive Deep Learning Approach to Analyzing Incunabula Pages	Jun 22, 2025	image-classificationImage Classification	—Unverified	0
An accurate and revised version of optical character recognition-based speech synthesis using LabVIEW	Jun 18, 2025	Optical Character RecognitionOptical Character Recognition (OCR)	—Unverified	0
FormGym: Doing Paperwork with Agents	Jun 17, 2025	FormInformation Retrieval	—Unverified	0
AdaVideoRAG: Omni-Contextual Adaptive Retrieval-Augmented Efficient Long Video Understanding	Jun 16, 2025	Optical Character Recognition (OCR)RAG	CodeCode Available	0
Efficient Medical VIE via Reinforcement Learning	Jun 16, 2025	DiversityOptical Character Recognition (OCR)	—Unverified	0
MultiFinBen: A Multilingual, Multimodal, and Difficulty-Aware Benchmark for Financial LLM Evaluation	Jun 16, 2025	Optical Character Recognition (OCR)	—Unverified	0
Intelligent Automation for FDI Facilitation: Optimizing Tariff Exemption Processes with OCR And Large Language Models	Jun 12, 2025	Large Language ModelOptical Character Recognition	—Unverified	0
Generalization or Hallucination? Understanding Out-of-Context Reasoning in Transformers	Jun 12, 2025	HallucinationOptical Character Recognition (OCR)	—Unverified	0
Institutional Books 1.0: A 242B token dataset from Harvard Library's collections, refined for accuracy and usability	Jun 10, 2025	Optical Character Recognition (OCR)	CodeCode Available	2
Reading in the Dark with Foveated Event Vision	Jun 7, 2025	Optical Character RecognitionOptical Character Recognition (OCR)	—Unverified	0
The OCR Quest for Generalization: Learning to recognize low-resource alphabets with model editing	Jun 7, 2025	Meta-LearningModel Editing	—Unverified	0
A Survey on Vietnamese Document Analysis and Recognition: Challenges and Future Directions	Jun 5, 2025	Computational Efficiencydocument understanding	—Unverified	0
MegaHan97K: A Large-Scale Dataset for Mega-Category Chinese Character Recognition with over 97K Categories	Jun 5, 2025	BenchmarkingOptical Character Recognition	CodeCode Available	2
Infinity Parser: Layout Aware Reinforcement Learning for Scanned Document Parsing	Jun 1, 2025	Document AIdocument understanding	CodeCode Available	0
SARD: A Large-Scale Synthetic Arabic OCR Dataset for Book-Style Text Recognition	May 30, 2025	Optical Character RecognitionOptical Character Recognition (OCR)	—Unverified	0
Predicting the Past: Estimating Historical Appraisals with OCR and Machine Learning	May 30, 2025	Optical Character Recognition (OCR)	CodeCode Available	0
Uni-MuMER: Unified Multi-Task Fine-Tuning of Vision-Language Model for Handwritten Mathematical Expression Recognition	May 29, 2025	Handwritten Mathmatical Expression RecognitionLanguage Modeling	CodeCode Available	1
ChartMind: A Comprehensive Benchmark for Complex Real-world Multimodal Chart Question Answering	May 29, 2025	Chart Question AnsweringChart Understanding	—Unverified	0
TextSR: Diffusion Super-Resolution with Multilingual OCR Guidance	May 29, 2025	Image Super-ResolutionOptical Character Recognition	—Unverified	0
Synthetic Document Question Answering in Hungarian	May 29, 2025	Optical Character Recognition (OCR)Question Answering	CodeCode Available	0
VidText: Towards Comprehensive Evaluation for Video Text Understanding	May 28, 2025	Multimodal ReasoningOptical Character Recognition (OCR)	CodeCode Available	1
ChatVLA-2: Vision-Language-Action Model with Open-World Embodied Reasoning from Pretrained Knowledge	May 28, 2025	Imitation LearningMath	CodeCode Available	1
E2E Process Automation Leveraging Generative AI and IDP-Based Automation Agent: A Case Study on Corporate Expense Processing	May 27, 2025	Decision MakingOptical Character Recognition (OCR)	—Unverified	0
Unifying Multimodal Large Language Model Capabilities and Modalities via Model Merging	May 26, 2025	Language ModelingLanguage Modelling	CodeCode Available	1
On Path to Multimodal Historical Reasoning: HistBench and HistAgent	May 26, 2025	Optical Character Recognition (OCR)	CodeCode Available	4
MT^3: Scaling MLLM-based Text Image Machine Translation via Multi-Task Reinforcement Learning	May 26, 2025	document understandingMachine Translation	—Unverified	0
TextDiffuser-RL: Efficient and Robust Text Layout Optimization for High-Fidelity Text-to-Image Synthesis	May 25, 2025	CPUGPU	—Unverified	0
ReadBench: Measuring the Dense Text Visual Reading Ability of Vision-Language Models	May 25, 2025	Optical Character Recognition (OCR)Reading Comprehension	CodeCode Available	1
Words as Geometric Features: Estimating Homography using Optical Character Recognition as Compressed Image Representation	May 25, 2025	Anomaly DetectionHomography Estimation	—Unverified	0
TextFlux: An OCR-Free DiT Model for High-Fidelity Multilingual Scene Text Synthesis	May 23, 2025	Optical Character Recognition (OCR)Text Generation	—Unverified	0
One RL to See Them All: Visual Triple Unified Reinforcement Learning	May 23, 2025	AllMath	—Unverified	0
TokBench: Evaluating Your Visual Tokenizer before Visual Generation	May 23, 2025	Face RecognitionFace Reconstruction	—Unverified	0
OCR-Reasoning Benchmark: Unveiling the True Capabilities of MLLMs in Complex Text-Rich Image Reasoning	May 22, 2025	Optical Character Recognition (OCR)Visual Reasoning	CodeCode Available	0
ARB: A Comprehensive Arabic Multimodal Reasoning Benchmark	May 22, 2025	document understandingMultimodal Reasoning	CodeCode Available	1
What Media Frames Reveal About Stance: A Dataset and Study about Memes in Climate Change Discourse	May 22, 2025	Optical Character Recognition (OCR)Stance Detection	—Unverified	0
How Do Large Vision-Language Models See Text in Image? Unveiling the Distinctive Role of OCR Heads	May 21, 2025	Optical Character RecognitionOptical Character Recognition (OCR)	—Unverified	0
Every Pixel Tells a Story: End-to-End Urdu Newspaper OCR	May 20, 2025	ArticlesImage Super-Resolution	—Unverified	0

Show:10 25 50

← PrevPage 1 of 25Next →

All datasets Benchmarking Chinese Text Recognition: Datasets, Baselines, and an Empirical Study VideoDB's OCR Benchmark Public Collection FSNS - Test I2L-140K SUT im2latex-100k

Benchmark Results

#	Model	Metric	Claimed	Verified	Status
1	DTrOCR	Accuracy (%)	89.6	—	Unverified
2	DTrOCR 105M	Accuracy (%)	89.6	—	Unverified
3	MaskOCR-L	Accuracy (%)	82.6	—	Unverified
4	TransOCR	Accuracy (%)	72.8	—	Unverified
5	SRN	Accuracy (%)	65	—	Unverified
6	MORAN	Accuracy (%)	64.3	—	Unverified
7	SEED	Accuracy (%)	61.2	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	GPT-4o	Average Accuracy	76.22	—	Unverified
2	Gemini-1.5 Pro	Average Accuracy	76.13	—	Unverified
3	Claude-3 Sonnet	Average Accuracy	67.71	—	Unverified
4	RapidOCR	Average Accuracy	56.98	—	Unverified
5	EasyOCR	Average Accuracy	49.3	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	STREET	Sequence error	27.54	—	Unverified
2	SEE	Sequence error	22	—	Unverified
3	AttentionOCR_Inception-resnet-v2_Location	Sequence error	15.8	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	I2L-NOPOOL	BLEU	89.09	—	Unverified
2	I2L-STRIPS	BLEU	89	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	Tesseract	Character Error Rate (CER)	0.08	—	Unverified
2	EasyOCR	Character Error Rate (CER)	0.07	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	I2L-STRIPS	BLEU	88.86	—	Unverified