Optical Character Recognition (OCR)

Optical Character Recognition or Optical Character Reader (OCR) is the electronic or mechanical conversion of images of typed, handwritten or printed text into machine-encoded text, whether from a scanned document, a photo of a document, a scene-photo (for example the text on signs and billboards in a landscape photo, license plates in cars...) or from subtitle text superimposed on an image (for example: from a television broadcast)

Papers

Recently Added Most Hyped Most Active Needs Verification Most Verified

Showing 51–100 of 1209 papers

Title	Date	Tasks	Status	Hype
Reasoning-OCR: Can Large Multimodal Models Solve Complex Logical Reasoning Problems from OCR Cues?	May 19, 2025	Logical ReasoningOptical Character Recognition	CodeCode Available	1
The Hidden Structure -- Improving Legal Document Understanding Through Explicit Text Formatting	May 19, 2025	document understandingOptical Character Recognition (OCR)	—Unverified	0
Scalable Video-to-Dataset Generation for Cross-Platform Mobile Agents	May 19, 2025	Dataset GenerationOptical Character Recognition (OCR)	—Unverified	0
LogicOCR: Do Your Large Multimodal Models Excel at Logical Reasoning on Text-Rich Images?	May 18, 2025	Logical ReasoningMultimodal Reasoning	CodeCode Available	1
Object-Centric Representations Improve Policy Generalization in Robot Manipulation	May 16, 2025	Optical Character Recognition (OCR)Robot Manipulation	—Unverified	0
An agentic system with reinforcement-learned subsystem improvements for parsing form-like documents	May 16, 2025	FormLanguage Modeling	CodeCode Available	0
Low-Resource Language Processing: An OCR-Driven Summarization and Translation Pipeline	May 16, 2025	Abstractive Text SummarizationLanguage Modeling	CodeCode Available	0
Analyzing Patterns and Influence of Advertising in Print Newspapers	May 16, 2025	ArticlesOptical Character Recognition (OCR)	—Unverified	0
Towards Self-Improvement of Diffusion Models via Group Preference Optimization	May 16, 2025	Optical Character Recognition (OCR)	—Unverified	0
PsOCR: Benchmarking Large Multimodal Models for Optical Character Recognition in Low-resource Pashto Language	May 15, 2025	BenchmarkingOptical Character Recognition	CodeCode Available	0
A document processing pipeline for the construction of a dataset for topic modeling based on the judgments of the Italian Supreme Court	May 13, 2025	DiversityDocument Layout Analysis	—Unverified	0
Reproducibility, Replicability, and Insights into Visual Document Retrieval with Late Interaction	May 12, 2025	Optical Character RecognitionOptical Character Recognition (OCR)	CodeCode Available	0
Gameplay Highlights Generation	May 12, 2025	Event DetectionHighlight Detection	—Unverified	0
Development of a WAZOBIA-Named Entity Recognition System	May 10, 2025	Machine Translationnamed-entity-recognition	—Unverified	0
Arrow-Guided VLM: Enhancing Flowchart Understanding via Arrow Direction Encoding	May 9, 2025	Optical Character RecognitionOptical Character Recognition (OCR)	CodeCode Available	0
Toward Advancing License Plate Super-Resolution in Real-World Scenarios: A Dataset and Benchmark	May 9, 2025	License Plate RecognitionOptical Character Recognition	CodeCode Available	0
Lost in OCR Translation? Vision-Based Approaches to Robust Document Retrieval	May 8, 2025	Computational EfficiencyOptical Character Recognition	—Unverified	0
GlyphMastero: A Glyph Encoder for High-Fidelity Scene Text Editing	May 8, 2025	Optical Character Recognition (OCR)Scene Text Editing	—Unverified	0
ChemRxivQuest: A Curated Chemistry Question-Answer Database Extracted from ChemRxiv Preprints	May 8, 2025	Optical Character RecognitionOptical Character Recognition (OCR)	—Unverified	0
DOTA: Deformable Optimized Transformer Architecture for End-to-End Text Recognition with Retrieval-Augmented Generation	May 7, 2025	Optical Character RecognitionOptical Character Recognition (OCR)	—Unverified	0
SymbioticRAG: Enhancing Document Intelligence Through Human-LLM Symbiotic Collaboration	May 5, 2025	Optical Character Recognition (OCR)RAG	—Unverified	0
Automated Parsing of Engineering Drawings for Structured Information Extraction Using a Fine-tuned Document Understanding Transformer	May 2, 2025	document understandingHallucination	—Unverified	0
Entropy Heat-Mapping: Localizing GPT-Based OCR Errors with Sliding-Window Shannon Analysis	Apr 30, 2025	Optical Character Recognition (OCR)	—Unverified	0
Tiger200K: Manually Curated High Visual Quality Video Dataset from UGC Platform	Apr 21, 2025	Boundary DetectionOptical Character Recognition (OCR)	—Unverified	0
Guidelines for External Disturbance Factors in the Use of OCR in Real-World Environments	Apr 21, 2025	Optical Character Recognition (OCR)	—Unverified	0
Evaluating Menu OCR and Translation: A Benchmark for Aligning Human and Automated Evaluations in Large Vision-Language Models	Apr 16, 2025	document understandingLayout Design	CodeCode Available	0
Consensus Entropy: Harnessing Multi-VLM Agreement for Self-Verifying and Self-Improving OCR	Apr 15, 2025	Optical Character RecognitionOptical Character Recognition (OCR)	—Unverified	0
Relation-Rich Visual Document Generator for Visual Information Extraction	Apr 14, 2025	Diversitydocument understanding	CodeCode Available	0
NoTeS-Bank: Benchmarking Neural Transcription and Search for Scientific Notes Understanding	Apr 12, 2025	BenchmarkingDocument AI	—Unverified	0
Kimi-VL Technical Report	Apr 10, 2025	Long-Context UnderstandingMathematical Reasoning	CodeCode Available	5
Towards Calibration Enhanced Network by Inverse Adversarial Attack	Apr 8, 2025	Adversarial AttackOptical Character Recognition	—Unverified	0
Towards Visual Text Grounding of Multimodal Large Language Model	Apr 7, 2025	BenchmarkingLanguage Modeling	—Unverified	0
VISTA-OCR: Towards generative and interactive end to end OCR models	Apr 4, 2025	DecoderOptical Character Recognition (OCR)	—Unverified	0
QID: Efficient Query-Informed ViTs in Data-Scarce Regimes for OCR-free Visual Document Understanding	Apr 3, 2025	document understandingLanguage Modeling	—Unverified	0
Multimodal LLMs for OCR, OCR Post-Correction, and Named Entity Recognition in Historical Documents	Apr 1, 2025	named-entity-recognitionNamed Entity Recognition	CodeCode Available	1
Context-Independent OCR with Multimodal LLMs: Effects of Image Resolution and Visual Complexity	Mar 31, 2025	Image CaptioningOptical Character Recognition	—Unverified	0
From Panels to Prose: Generating Literary Narratives from Comics	Mar 30, 2025	Optical Character Recognition (OCR)	CodeCode Available	3
BiblioPage: A Dataset of Scanned Title Pages for Bibliographic Metadata Extraction	Mar 25, 2025	document understandingobject-detection	CodeCode Available	0
TFIC: End-to-End Text-Focused Image Compression for Coding for Machines	Mar 25, 2025	Image CompressionOptical Character Recognition	—Unverified	0
PM4Bench: A Parallel Multilingual Multi-Modal Multi-task Benchmark for Large Vision Language Model	Mar 24, 2025	Language ModelingLanguage Modelling	CodeCode Available	1
Slide2Text: Leveraging LLMs for Personalized Textbook Generation from PowerPoint Presentations	Mar 22, 2025	Optical Character Recognition (OCR)	—Unverified	0
KL3M Tokenizers: A Family of Domain-Specific and Character-Level Tokenizers for Legal, Financial, and Preprocessing Applications	Mar 21, 2025	16k4k	CodeCode Available	0
A Data-driven Investigation of Euphemistic Language: Comparing the usage of "slave" and "servant" in 19th century US newspapers	Mar 19, 2025	Optical Character Recognition (OCR)	CodeCode Available	0
LVAgent: Long Video Understanding by Multi-Round Dynamical Collaboration of MLLM Agents	Mar 13, 2025	Computational EfficiencyOptical Character Recognition (OCR)	—Unverified	0
KAP: MLLM-assisted OCR Text Enhancement for Hybrid Retrieval in Chinese Non-Narrative Documents	Mar 11, 2025	Optical Character Recognition (OCR)Retrieval	CodeCode Available	0
Revisiting Noise in Natural Language Processing for Computational Social Science	Mar 10, 2025	Optical Character Recognition (OCR)	—Unverified	0
CalliReader: Contextualizing Chinese Calligraphy via an Embedding-Aligned Vision-Language Model	Mar 9, 2025	HallucinationLanguage Modeling	—Unverified	0
PP-DocBee: Improving Multimodal Document Understanding Through a Bag of Tricks	Mar 6, 2025	document understandingLanguage Modeling	—Unverified	0
AI-Driven Multi-Stage Computer Vision System for Defect Detection in Laser-Engraved Industrial Nameplates	Mar 5, 2025	Anomaly DetectionDefect Detection	—Unverified	0
An Approach for Air Drawing Using Background Subtraction and Contour Extraction	Mar 3, 2025	Hand DetectionOptical Character Recognition (OCR)	CodeCode Available	2

Show:10 25 50

← PrevPage 2 of 25Next →

All datasets Benchmarking Chinese Text Recognition: Datasets, Baselines, and an Empirical Study VideoDB's OCR Benchmark Public Collection FSNS - Test I2L-140K SUT im2latex-100k

Benchmark Results

#	Model	Metric	Claimed	Verified	Status
1	DTrOCR 105M	Accuracy (%)	89.6	—	Unverified
2	DTrOCR	Accuracy (%)	89.6	—	Unverified
3	MaskOCR-L	Accuracy (%)	82.6	—	Unverified
4	TransOCR	Accuracy (%)	72.8	—	Unverified
5	SRN	Accuracy (%)	65	—	Unverified
6	MORAN	Accuracy (%)	64.3	—	Unverified
7	SEED	Accuracy (%)	61.2	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	GPT-4o	Average Accuracy	76.22	—	Unverified
2	Gemini-1.5 Pro	Average Accuracy	76.13	—	Unverified
3	Claude-3 Sonnet	Average Accuracy	67.71	—	Unverified
4	RapidOCR	Average Accuracy	56.98	—	Unverified
5	EasyOCR	Average Accuracy	49.3	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	STREET	Sequence error	27.54	—	Unverified
2	SEE	Sequence error	22	—	Unverified
3	AttentionOCR_Inception-resnet-v2_Location	Sequence error	15.8	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	I2L-NOPOOL	BLEU	89.09	—	Unverified
2	I2L-STRIPS	BLEU	89	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	Tesseract	Character Error Rate (CER)	0.08	—	Unverified
2	EasyOCR	Character Error Rate (CER)	0.07	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	I2L-STRIPS	BLEU	88.86	—	Unverified