Optical Character Recognition (OCR)

Optical Character Recognition or Optical Character Reader (OCR) is the electronic or mechanical conversion of images of typed, handwritten or printed text into machine-encoded text, whether from a scanned document, a photo of a document, a scene-photo (for example the text on signs and billboards in a landscape photo, license plates in cars...) or from subtitle text superimposed on an image (for example: from a television broadcast)

Papers

Recently Added Most Hyped Most Active Needs Verification Most Verified

Showing 251–300 of 1209 papers

Title	Date	Tasks	Status
MT^3: Scaling MLLM-based Text Image Machine Translation via Multi-Task Reinforcement Learning	May 26, 2025	document understandingMachine Translation	—Unverified
TextDiffuser-RL: Efficient and Robust Text Layout Optimization for High-Fidelity Text-to-Image Synthesis	May 25, 2025	CPUGPU	—Unverified
Words as Geometric Features: Estimating Homography using Optical Character Recognition as Compressed Image Representation	May 25, 2025	Anomaly DetectionHomography Estimation	—Unverified
TextFlux: An OCR-Free DiT Model for High-Fidelity Multilingual Scene Text Synthesis	May 23, 2025	Optical Character Recognition (OCR)Text Generation	—Unverified
One RL to See Them All: Visual Triple Unified Reinforcement Learning	May 23, 2025	AllMath	—Unverified
TokBench: Evaluating Your Visual Tokenizer before Visual Generation	May 23, 2025	Face RecognitionFace Reconstruction	—Unverified
What Media Frames Reveal About Stance: A Dataset and Study about Memes in Climate Change Discourse	May 22, 2025	Optical Character Recognition (OCR)Stance Detection	—Unverified
OCR-Reasoning Benchmark: Unveiling the True Capabilities of MLLMs in Complex Text-Rich Image Reasoning	May 22, 2025	Optical Character Recognition (OCR)Visual Reasoning	CodeCode Available
How Do Large Vision-Language Models See Text in Image? Unveiling the Distinctive Role of OCR Heads	May 21, 2025	Optical Character RecognitionOptical Character Recognition (OCR)	—Unverified
Every Pixel Tells a Story: End-to-End Urdu Newspaper OCR	May 20, 2025	ArticlesImage Super-Resolution	—Unverified
Scalable Video-to-Dataset Generation for Cross-Platform Mobile Agents	May 19, 2025	Dataset GenerationOptical Character Recognition (OCR)	—Unverified
The Hidden Structure -- Improving Legal Document Understanding Through Explicit Text Formatting	May 19, 2025	document understandingOptical Character Recognition (OCR)	—Unverified
Low-Resource Language Processing: An OCR-Driven Summarization and Translation Pipeline	May 16, 2025	Abstractive Text SummarizationLanguage Modeling	CodeCode Available
Object-Centric Representations Improve Policy Generalization in Robot Manipulation	May 16, 2025	Optical Character Recognition (OCR)Robot Manipulation	—Unverified
Analyzing Patterns and Influence of Advertising in Print Newspapers	May 16, 2025	ArticlesOptical Character Recognition (OCR)	—Unverified
An agentic system with reinforcement-learned subsystem improvements for parsing form-like documents	May 16, 2025	FormLanguage Modeling	CodeCode Available
Towards Self-Improvement of Diffusion Models via Group Preference Optimization	May 16, 2025	Optical Character Recognition (OCR)	—Unverified
PsOCR: Benchmarking Large Multimodal Models for Optical Character Recognition in Low-resource Pashto Language	May 15, 2025	BenchmarkingOptical Character Recognition	CodeCode Available
A document processing pipeline for the construction of a dataset for topic modeling based on the judgments of the Italian Supreme Court	May 13, 2025	DiversityDocument Layout Analysis	—Unverified
Reproducibility, Replicability, and Insights into Visual Document Retrieval with Late Interaction	May 12, 2025	Optical Character RecognitionOptical Character Recognition (OCR)	CodeCode Available
Gameplay Highlights Generation	May 12, 2025	Event DetectionHighlight Detection	—Unverified
Development of a WAZOBIA-Named Entity Recognition System	May 10, 2025	Machine Translationnamed-entity-recognition	—Unverified
Arrow-Guided VLM: Enhancing Flowchart Understanding via Arrow Direction Encoding	May 9, 2025	Optical Character RecognitionOptical Character Recognition (OCR)	CodeCode Available
Toward Advancing License Plate Super-Resolution in Real-World Scenarios: A Dataset and Benchmark	May 9, 2025	License Plate RecognitionOptical Character Recognition	CodeCode Available
ChemRxivQuest: A Curated Chemistry Question-Answer Database Extracted from ChemRxiv Preprints	May 8, 2025	Optical Character RecognitionOptical Character Recognition (OCR)	—Unverified
GlyphMastero: A Glyph Encoder for High-Fidelity Scene Text Editing	May 8, 2025	Optical Character Recognition (OCR)Scene Text Editing	—Unverified
Lost in OCR Translation? Vision-Based Approaches to Robust Document Retrieval	May 8, 2025	Computational EfficiencyOptical Character Recognition	—Unverified
DOTA: Deformable Optimized Transformer Architecture for End-to-End Text Recognition with Retrieval-Augmented Generation	May 7, 2025	Optical Character RecognitionOptical Character Recognition (OCR)	—Unverified
SymbioticRAG: Enhancing Document Intelligence Through Human-LLM Symbiotic Collaboration	May 5, 2025	Optical Character Recognition (OCR)RAG	—Unverified
Automated Parsing of Engineering Drawings for Structured Information Extraction Using a Fine-tuned Document Understanding Transformer	May 2, 2025	document understandingHallucination	—Unverified
Entropy Heat-Mapping: Localizing GPT-Based OCR Errors with Sliding-Window Shannon Analysis	Apr 30, 2025	Optical Character Recognition (OCR)	—Unverified
Guidelines for External Disturbance Factors in the Use of OCR in Real-World Environments	Apr 21, 2025	Optical Character Recognition (OCR)	—Unverified
Tiger200K: Manually Curated High Visual Quality Video Dataset from UGC Platform	Apr 21, 2025	Boundary DetectionOptical Character Recognition (OCR)	—Unverified
Evaluating Menu OCR and Translation: A Benchmark for Aligning Human and Automated Evaluations in Large Vision-Language Models	Apr 16, 2025	document understandingLayout Design	CodeCode Available
Consensus Entropy: Harnessing Multi-VLM Agreement for Self-Verifying and Self-Improving OCR	Apr 15, 2025	Optical Character RecognitionOptical Character Recognition (OCR)	—Unverified
Relation-Rich Visual Document Generator for Visual Information Extraction	Apr 14, 2025	Diversitydocument understanding	CodeCode Available
NoTeS-Bank: Benchmarking Neural Transcription and Search for Scientific Notes Understanding	Apr 12, 2025	BenchmarkingDocument AI	—Unverified
Towards Calibration Enhanced Network by Inverse Adversarial Attack	Apr 8, 2025	Adversarial AttackOptical Character Recognition	—Unverified
Towards Visual Text Grounding of Multimodal Large Language Model	Apr 7, 2025	BenchmarkingLanguage Modeling	—Unverified
VISTA-OCR: Towards generative and interactive end to end OCR models	Apr 4, 2025	DecoderOptical Character Recognition (OCR)	—Unverified
QID: Efficient Query-Informed ViTs in Data-Scarce Regimes for OCR-free Visual Document Understanding	Apr 3, 2025	document understandingLanguage Modeling	—Unverified
Context-Independent OCR with Multimodal LLMs: Effects of Image Resolution and Visual Complexity	Mar 31, 2025	Image CaptioningOptical Character Recognition	—Unverified
BiblioPage: A Dataset of Scanned Title Pages for Bibliographic Metadata Extraction	Mar 25, 2025	document understandingobject-detection	CodeCode Available
TFIC: End-to-End Text-Focused Image Compression for Coding for Machines	Mar 25, 2025	Image CompressionOptical Character Recognition	—Unverified
Slide2Text: Leveraging LLMs for Personalized Textbook Generation from PowerPoint Presentations	Mar 22, 2025	Optical Character Recognition (OCR)	—Unverified
KL3M Tokenizers: A Family of Domain-Specific and Character-Level Tokenizers for Legal, Financial, and Preprocessing Applications	Mar 21, 2025	16k4k	CodeCode Available
A Data-driven Investigation of Euphemistic Language: Comparing the usage of "slave" and "servant" in 19th century US newspapers	Mar 19, 2025	Optical Character Recognition (OCR)	CodeCode Available
LVAgent: Long Video Understanding by Multi-Round Dynamical Collaboration of MLLM Agents	Mar 13, 2025	Computational EfficiencyOptical Character Recognition (OCR)	—Unverified
KAP: MLLM-assisted OCR Text Enhancement for Hybrid Retrieval in Chinese Non-Narrative Documents	Mar 11, 2025	Optical Character Recognition (OCR)Retrieval	CodeCode Available
Revisiting Noise in Natural Language Processing for Computational Social Science	Mar 10, 2025	Optical Character Recognition (OCR)	—Unverified

Show:10 25 50

← PrevPage 6 of 25Next →

All datasets Benchmarking Chinese Text Recognition: Datasets, Baselines, and an Empirical Study VideoDB's OCR Benchmark Public Collection FSNS - Test I2L-140K SUT im2latex-100k

Benchmark Results

#	Model	Metric	Claimed	Verified	Status
1	DTrOCR	Accuracy (%)	89.6	—	Unverified
2	DTrOCR 105M	Accuracy (%)	89.6	—	Unverified
3	MaskOCR-L	Accuracy (%)	82.6	—	Unverified
4	TransOCR	Accuracy (%)	72.8	—	Unverified
5	SRN	Accuracy (%)	65	—	Unverified
6	MORAN	Accuracy (%)	64.3	—	Unverified
7	SEED	Accuracy (%)	61.2	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	GPT-4o	Average Accuracy	76.22	—	Unverified
2	Gemini-1.5 Pro	Average Accuracy	76.13	—	Unverified
3	Claude-3 Sonnet	Average Accuracy	67.71	—	Unverified
4	RapidOCR	Average Accuracy	56.98	—	Unverified
5	EasyOCR	Average Accuracy	49.3	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	STREET	Sequence error	27.54	—	Unverified
2	SEE	Sequence error	22	—	Unverified
3	AttentionOCR_Inception-resnet-v2_Location	Sequence error	15.8	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	I2L-NOPOOL	BLEU	89.09	—	Unverified
2	I2L-STRIPS	BLEU	89	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	Tesseract	Character Error Rate (CER)	0.08	—	Unverified
2	EasyOCR	Character Error Rate (CER)	0.07	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	I2L-STRIPS	BLEU	88.86	—	Unverified