Optical Character Recognition (OCR)

Optical Character Recognition or Optical Character Reader (OCR) is the electronic or mechanical conversion of images of typed, handwritten or printed text into machine-encoded text, whether from a scanned document, a photo of a document, a scene-photo (for example the text on signs and billboards in a landscape photo, license plates in cars...) or from subtitle text superimposed on an image (for example: from a television broadcast)

Papers

Recently Added Most Hyped Most Active Needs Verification Most Verified

Showing 251–275 of 1209 papers

Title	Date	Tasks	Status
MT^3: Scaling MLLM-based Text Image Machine Translation via Multi-Task Reinforcement Learning	May 26, 2025	document understandingMachine Translation	—Unverified
Words as Geometric Features: Estimating Homography using Optical Character Recognition as Compressed Image Representation	May 25, 2025	Anomaly DetectionHomography Estimation	—Unverified
TextDiffuser-RL: Efficient and Robust Text Layout Optimization for High-Fidelity Text-to-Image Synthesis	May 25, 2025	CPUGPU	—Unverified
TextFlux: An OCR-Free DiT Model for High-Fidelity Multilingual Scene Text Synthesis	May 23, 2025	Optical Character Recognition (OCR)Text Generation	—Unverified
One RL to See Them All: Visual Triple Unified Reinforcement Learning	May 23, 2025	AllMath	—Unverified
TokBench: Evaluating Your Visual Tokenizer before Visual Generation	May 23, 2025	Face RecognitionFace Reconstruction	—Unverified
OCR-Reasoning Benchmark: Unveiling the True Capabilities of MLLMs in Complex Text-Rich Image Reasoning	May 22, 2025	Optical Character Recognition (OCR)Visual Reasoning	CodeCode Available
What Media Frames Reveal About Stance: A Dataset and Study about Memes in Climate Change Discourse	May 22, 2025	Optical Character Recognition (OCR)Stance Detection	—Unverified
How Do Large Vision-Language Models See Text in Image? Unveiling the Distinctive Role of OCR Heads	May 21, 2025	Optical Character RecognitionOptical Character Recognition (OCR)	—Unverified
Every Pixel Tells a Story: End-to-End Urdu Newspaper OCR	May 20, 2025	ArticlesImage Super-Resolution	—Unverified
Scalable Video-to-Dataset Generation for Cross-Platform Mobile Agents	May 19, 2025	Dataset GenerationOptical Character Recognition (OCR)	—Unverified
The Hidden Structure -- Improving Legal Document Understanding Through Explicit Text Formatting	May 19, 2025	document understandingOptical Character Recognition (OCR)	—Unverified
Low-Resource Language Processing: An OCR-Driven Summarization and Translation Pipeline	May 16, 2025	Abstractive Text SummarizationLanguage Modeling	CodeCode Available
Analyzing Patterns and Influence of Advertising in Print Newspapers	May 16, 2025	ArticlesOptical Character Recognition (OCR)	—Unverified
An agentic system with reinforcement-learned subsystem improvements for parsing form-like documents	May 16, 2025	FormLanguage Modeling	CodeCode Available
Towards Self-Improvement of Diffusion Models via Group Preference Optimization	May 16, 2025	Optical Character Recognition (OCR)	—Unverified
Object-Centric Representations Improve Policy Generalization in Robot Manipulation	May 16, 2025	Optical Character Recognition (OCR)Robot Manipulation	—Unverified
PsOCR: Benchmarking Large Multimodal Models for Optical Character Recognition in Low-resource Pashto Language	May 15, 2025	BenchmarkingOptical Character Recognition	CodeCode Available
A document processing pipeline for the construction of a dataset for topic modeling based on the judgments of the Italian Supreme Court	May 13, 2025	DiversityDocument Layout Analysis	—Unverified
Reproducibility, Replicability, and Insights into Visual Document Retrieval with Late Interaction	May 12, 2025	Optical Character RecognitionOptical Character Recognition (OCR)	CodeCode Available
Gameplay Highlights Generation	May 12, 2025	Event DetectionHighlight Detection	—Unverified
Development of a WAZOBIA-Named Entity Recognition System	May 10, 2025	Machine Translationnamed-entity-recognition	—Unverified
Arrow-Guided VLM: Enhancing Flowchart Understanding via Arrow Direction Encoding	May 9, 2025	Optical Character RecognitionOptical Character Recognition (OCR)	CodeCode Available
Toward Advancing License Plate Super-Resolution in Real-World Scenarios: A Dataset and Benchmark	May 9, 2025	License Plate RecognitionOptical Character Recognition	CodeCode Available
ChemRxivQuest: A Curated Chemistry Question-Answer Database Extracted from ChemRxiv Preprints	May 8, 2025	Optical Character RecognitionOptical Character Recognition (OCR)	—Unverified

Show:10 25 50

← PrevPage 11 of 49Next →

All datasets Benchmarking Chinese Text Recognition: Datasets, Baselines, and an Empirical Study VideoDB's OCR Benchmark Public Collection FSNS - Test I2L-140K SUT im2latex-100k

Benchmark Results

#	Model	Metric	Claimed	Verified	Status
1	DTrOCR	Accuracy (%)	89.6	—	Unverified
2	DTrOCR 105M	Accuracy (%)	89.6	—	Unverified
3	MaskOCR-L	Accuracy (%)	82.6	—	Unverified
4	TransOCR	Accuracy (%)	72.8	—	Unverified
5	SRN	Accuracy (%)	65	—	Unverified
6	MORAN	Accuracy (%)	64.3	—	Unverified
7	SEED	Accuracy (%)	61.2	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	GPT-4o	Average Accuracy	76.22	—	Unverified
2	Gemini-1.5 Pro	Average Accuracy	76.13	—	Unverified
3	Claude-3 Sonnet	Average Accuracy	67.71	—	Unverified
4	RapidOCR	Average Accuracy	56.98	—	Unverified
5	EasyOCR	Average Accuracy	49.3	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	STREET	Sequence error	27.54	—	Unverified
2	SEE	Sequence error	22	—	Unverified
3	AttentionOCR_Inception-resnet-v2_Location	Sequence error	15.8	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	I2L-NOPOOL	BLEU	89.09	—	Unverified
2	I2L-STRIPS	BLEU	89	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	Tesseract	Character Error Rate (CER)	0.08	—	Unverified
2	EasyOCR	Character Error Rate (CER)	0.07	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	I2L-STRIPS	BLEU	88.86	—	Unverified