Optical Character Recognition (OCR)

Optical Character Recognition or Optical Character Reader (OCR) is the electronic or mechanical conversion of images of typed, handwritten or printed text into machine-encoded text, whether from a scanned document, a photo of a document, a scene-photo (for example the text on signs and billboards in a landscape photo, license plates in cars...) or from subtitle text superimposed on an image (for example: from a television broadcast)

Papers

Recently Added Most Hyped Most Active Needs Verification Most Verified

Showing 226–250 of 1209 papers

Title	Date	Tasks	Status
Orchestrator-Agent Trust: A Modular Agentic AI Visual Classification System with Trust-Aware Orchestration and RAG-Based Reasoning	Jul 9, 2025	BenchmarkingImage Retrieval	CodeCode Available
PaddleOCR 3.0 Technical Report	Jul 8, 2025	document understandingKey Information Extraction	—Unverified
TextPixs: Glyph-Conditioned Diffusion with Character-Aware Attention and OCR-Guided Supervision	Jul 8, 2025	Image GenerationOptical Character Recognition (OCR)	—Unverified
DrishtiKon: Multi-Granular Visual Grounding for Text-Rich Document Images	Jun 26, 2025	document understandingOptical Character Recognition (OCR)	CodeCode Available
Logios : An open source Greek Polytonic Optical Character Recognition system	Jun 26, 2025	Optical Character RecognitionOptical Character Recognition (OCR)	—Unverified
Engineering RAG Systems for Real-World Applications: Design, Development, and Evaluation	Jun 25, 2025	Optical Character Recognition (OCR)RAG	—Unverified
Seeing is Believing? Mitigating OCR Hallucinations in Multimodal Large Language Models	Jun 25, 2025	document understandingHallucination	—Unverified
Unfolding the Past: A Comprehensive Deep Learning Approach to Analyzing Incunabula Pages	Jun 22, 2025	image-classificationImage Classification	—Unverified
An accurate and revised version of optical character recognition-based speech synthesis using LabVIEW	Jun 18, 2025	Optical Character RecognitionOptical Character Recognition (OCR)	—Unverified
FormGym: Doing Paperwork with Agents	Jun 17, 2025	FormInformation Retrieval	—Unverified
AdaVideoRAG: Omni-Contextual Adaptive Retrieval-Augmented Efficient Long Video Understanding	Jun 16, 2025	Optical Character Recognition (OCR)RAG	CodeCode Available
MultiFinBen: A Multilingual, Multimodal, and Difficulty-Aware Benchmark for Financial LLM Evaluation	Jun 16, 2025	Optical Character Recognition (OCR)	—Unverified
Efficient Medical VIE via Reinforcement Learning	Jun 16, 2025	DiversityOptical Character Recognition (OCR)	—Unverified
Generalization or Hallucination? Understanding Out-of-Context Reasoning in Transformers	Jun 12, 2025	HallucinationOptical Character Recognition (OCR)	—Unverified
Intelligent Automation for FDI Facilitation: Optimizing Tariff Exemption Processes with OCR And Large Language Models	Jun 12, 2025	Large Language ModelOptical Character Recognition	—Unverified
The OCR Quest for Generalization: Learning to recognize low-resource alphabets with model editing	Jun 7, 2025	Meta-LearningModel Editing	—Unverified
Reading in the Dark with Foveated Event Vision	Jun 7, 2025	Optical Character RecognitionOptical Character Recognition (OCR)	—Unverified
A Survey on Vietnamese Document Analysis and Recognition: Challenges and Future Directions	Jun 5, 2025	Computational Efficiencydocument understanding	—Unverified
Infinity Parser: Layout Aware Reinforcement Learning for Scanned Document Parsing	Jun 1, 2025	Document AIdocument understanding	CodeCode Available
Predicting the Past: Estimating Historical Appraisals with OCR and Machine Learning	May 30, 2025	Optical Character Recognition (OCR)	CodeCode Available
SARD: A Large-Scale Synthetic Arabic OCR Dataset for Book-Style Text Recognition	May 30, 2025	Optical Character RecognitionOptical Character Recognition (OCR)	—Unverified
Synthetic Document Question Answering in Hungarian	May 29, 2025	Optical Character Recognition (OCR)Question Answering	CodeCode Available
ChartMind: A Comprehensive Benchmark for Complex Real-world Multimodal Chart Question Answering	May 29, 2025	Chart Question AnsweringChart Understanding	—Unverified
TextSR: Diffusion Super-Resolution with Multilingual OCR Guidance	May 29, 2025	Image Super-ResolutionOptical Character Recognition	—Unverified
E2E Process Automation Leveraging Generative AI and IDP-Based Automation Agent: A Case Study on Corporate Expense Processing	May 27, 2025	Decision MakingOptical Character Recognition (OCR)	—Unverified

Show:10 25 50

← PrevPage 10 of 49Next →

All datasets Benchmarking Chinese Text Recognition: Datasets, Baselines, and an Empirical Study VideoDB's OCR Benchmark Public Collection FSNS - Test I2L-140K SUT im2latex-100k

Benchmark Results

#	Model	Metric	Claimed	Verified	Status
1	DTrOCR	Accuracy (%)	89.6	—	Unverified
2	DTrOCR 105M	Accuracy (%)	89.6	—	Unverified
3	MaskOCR-L	Accuracy (%)	82.6	—	Unverified
4	TransOCR	Accuracy (%)	72.8	—	Unverified
5	SRN	Accuracy (%)	65	—	Unverified
6	MORAN	Accuracy (%)	64.3	—	Unverified
7	SEED	Accuracy (%)	61.2	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	GPT-4o	Average Accuracy	76.22	—	Unverified
2	Gemini-1.5 Pro	Average Accuracy	76.13	—	Unverified
3	Claude-3 Sonnet	Average Accuracy	67.71	—	Unverified
4	RapidOCR	Average Accuracy	56.98	—	Unverified
5	EasyOCR	Average Accuracy	49.3	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	STREET	Sequence error	27.54	—	Unverified
2	SEE	Sequence error	22	—	Unverified
3	AttentionOCR_Inception-resnet-v2_Location	Sequence error	15.8	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	I2L-NOPOOL	BLEU	89.09	—	Unverified
2	I2L-STRIPS	BLEU	89	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	Tesseract	Character Error Rate (CER)	0.08	—	Unverified
2	EasyOCR	Character Error Rate (CER)	0.07	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	I2L-STRIPS	BLEU	88.86	—	Unverified