Optical Character Recognition (OCR)

Optical Character Recognition or Optical Character Reader (OCR) is the electronic or mechanical conversion of images of typed, handwritten or printed text into machine-encoded text, whether from a scanned document, a photo of a document, a scene-photo (for example the text on signs and billboards in a landscape photo, license plates in cars...) or from subtitle text superimposed on an image (for example: from a television broadcast)

Papers

Recently Added Most Hyped Most Active Needs Verification Most Verified

Showing 101–150 of 1209 papers

Title	Date	Tasks	Status	Hype
Judge a Book by its Cover: Investigating Multi-Modal LLMs for Multi-Page Handwritten Document Transcription	Feb 27, 2025	Handwritten Text RecognitionHTR	CodeCode Available	0
NusaAksara: A Multimodal and Multilingual Benchmark for Preserving Indonesian Indigenous Scripts	Feb 25, 2025	Image SegmentationLanguage Identification	—Unverified	0
Detecting Offensive Memes with Social Biases in Singapore Context Using Multimodal Large Language Models	Feb 25, 2025	Optical Character Recognition (OCR)	CodeCode Available	0
Shakti-VLMs: Scalable Vision-Language Models for Enterprise AI	Feb 24, 2025	document understandingMultimodal Reasoning	—Unverified	0
MultiOCR-QA: Dataset for Evaluating Robustness of LLMs in Question Answering on Multilingual OCR Texts	Feb 24, 2025	Optical Character RecognitionOptical Character Recognition (OCR)	CodeCode Available	0
Visual Zero-Shot E-Commerce Product Attribute Value Extraction	Feb 21, 2025	Aspect ExtractionAttribute	—Unverified	0
KITAB-Bench: A Comprehensive Multi-Domain Benchmark for Arabic OCR and Document Understanding	Feb 20, 2025	document understandingOptical Character Recognition	—Unverified	0
Harnessing PDF Data for Improving Japanese Large Multimodal Models	Feb 20, 2025	Optical Character Recognition (OCR)	—Unverified	0
Corrupted but Not Broken: Understanding and Mitigating the Negative Impacts of Corrupted Data in Visual Instruction Tuning	Feb 18, 2025	Optical Character Recognition (OCR)	—Unverified	0
Reading the unreadable: Creating a dataset of 19th century English newspapers using image-to-text language models	Feb 18, 2025	Image to textOptical Character Recognition	CodeCode Available	0
Southern Newswire Corpus: A Large-Scale Dataset of Mid-Century Wire Articles Beyond the Front Page	Feb 17, 2025	ArticlesOptical Character Recognition (OCR)	—Unverified	0
MME-CoT: Benchmarking Chain-of-Thought in Large Multimodal Models for Reasoning Quality, Robustness, and Efficiency	Feb 13, 2025	BenchmarkingMath	—Unverified	0
Adapting Multilingual Embedding Models to Historical Luxembourgish	Feb 11, 2025	ArticlesOptical Character Recognition (OCR)	—Unverified	0
Benchmarking Vision-Language Models on Optical Character Recognition in Dynamic Video Environments	Feb 10, 2025	BenchmarkingOptical Character Recognition	CodeCode Available	1
Éclair -- Extracting Content and Layout with Integrated Reading Order for Documents	Feb 6, 2025	Image CaptioningOptical Character Recognition	—Unverified	0
Towards Making Flowchart Images Machine Interpretable	Jan 29, 2025	Code GenerationOptical Character Recognition (OCR)	CodeCode Available	1
MME-Industry: A Cross-Industry Multimodal Evaluation Benchmark	Jan 28, 2025	MMEModel Optimization	—Unverified	0
Ocean-OCR: Towards General OCR Application via a Vision-Language Model	Jan 26, 2025	document understandingLanguage Modeling	CodeCode Available	1
Early evidence of how LLMs outperform traditional systems on OCR/HTR tasks for historical records	Jan 20, 2025	HTROptical Character Recognition (OCR)	CodeCode Available	0
Exploring AI-based System Design for Pixel-level Protected Health Information Detection in Medical Images	Jan 16, 2025	De-identificationOptical Character Recognition	—Unverified	0
MMDocIR: Benchmarking Multi-Modal Retrieval for Long Documents	Jan 15, 2025	BenchmarkingOptical Character Recognition (OCR)	—Unverified	0
Jochre 3 and the Yiddish OCR corpus	Jan 14, 2025	Optical Character Recognition (OCR)	CodeCode Available	0
MathReader : Text-to-Speech for Mathematical Documents	Jan 13, 2025	Optical Character Recognition (OCR)text-to-speech	CodeCode Available	1
Comparative analysis of optical character recognition methods for Sámi texts from the National Library of Norway	Jan 13, 2025	Optical Character RecognitionOptical Character Recognition (OCR)	CodeCode Available	0
Centurio: On Drivers of Multilingual Ability of Large Vision-Language Model	Jan 9, 2025	Language ModelingLanguage Modelling	CodeCode Available	0
Efficient License Plate Recognition in Videos Using Visual Rhythm and Accumulative Line Analysis	Jan 8, 2025	License Plate DetectionLicense Plate Recognition	CodeCode Available	0
BoundingDocs: a Unified Dataset for Document Question Answering with Spatial Annotations	Jan 6, 2025	Document AIdocument understanding	—Unverified	0
Geometry Restoration and Dewarping of Camera-Captured Document Images	Jan 6, 2025	Optical Character RecognitionOptical Character Recognition (OCR)	CodeCode Available	1
SceneVTG++: Controllable Multilingual Visual Text Generation in the Wild	Jan 6, 2025	AttributeOptical Character Recognition	—Unverified	0
Efficient Video-Based ALPR System Using YOLO and Visual Rhythm	Jan 4, 2025	License Plate RecognitionOptical Character Recognition	CodeCode Available	0
Emergency-Brake Simplex: Toward A Verifiably Safe Control-CPS Architecture for Abrupt Runtime Reachability Constraint Changes	Jan 3, 2025	Computational EfficiencyOptical Character Recognition (OCR)	—Unverified	0
Crossing Language Borders: A Pipeline for Indonesian Manhwa Translation	Jan 3, 2025	Machine TranslationObject Detection	CodeCode Available	0
Embedding Similarity Guided License Plate Super Resolution	Jan 2, 2025	License Plate RecognitionOptical Character Recognition	—Unverified	0
Towards Natural Language-Based Document Image Retrieval: New Dataset and Benchmark	Jan 1, 2025	document understandingImage Retrieval	—Unverified	0
DocLayLLM: An Efficient Multi-modal Extension of Large Language Models for Text-rich Document Understanding	Jan 1, 2025	document understandingOptical Character Recognition (OCR)	CodeCode Available	1
CLIP is Almost All You Need: Towards Parameter-Efficient Scene Text Retrieval without OCR	Jan 1, 2025	AllOptical Character Recognition	—Unverified	0
2.5 Years in Class: A Multimodal Textbook for Vision-Language Pretraining	Jan 1, 2025	Optical Character Recognition (OCR)	CodeCode Available	2
OCRBench v2: An Improved Benchmark for Evaluating Large Multimodal Models on Visual Text Localization and Reasoning	Dec 31, 2024	BenchmarkingLogical Reasoning	CodeCode Available	4
Optical Character Recognition using Convolutional Neural Networks for Ashokan Brahmi Inscriptions	Dec 29, 2024	Data AugmentationImage Segmentation	—Unverified	0
Do Current Video LLMs Have Strong OCR Abilities? A Preliminary Study	Dec 29, 2024	Motion DetectionOptical Character Recognition	CodeCode Available	0
ERPA: Efficient RPA Model Integrating OCR and LLMs for Intelligent Document Processing	Dec 24, 2024	Optical Character RecognitionOptical Character Recognition (OCR)	—Unverified	0
HAUR: Human Annotation Understanding and Recognition Through Text-Heavy Images	Dec 24, 2024	Optical Character Recognition (OCR)Question Answering	—Unverified	0
VORTEX: A Spatial Computing Framework for Optimized Drone Telemetry Extraction from First-Person View Flight Data	Dec 24, 2024	Computational EfficiencyOptical Character Recognition	—Unverified	0
LMV-RPA: Large Model Voting-based Robotic Process Automation	Dec 23, 2024	Optical Character RecognitionOptical Character Recognition (OCR)	CodeCode Available	0
InstructOCR: Instruction Boosting Scene Text Spotting	Dec 20, 2024	Optical Character Recognition (OCR)Text Spotting	CodeCode Available	0
Deciphering the Underserved: Benchmarking LLM OCR for Low-Resource Scripts	Dec 20, 2024	BenchmarkingOptical Character Recognition	CodeCode Available	0
TextSleuth: Towards Explainable Tampered Text Detection	Dec 19, 2024	Domain GeneralizationOptical Character Recognition (OCR)	—Unverified	0
Track the Answer: Extending TextVQA from Image to Video with Spatio-Temporal Clues	Dec 17, 2024	Language ModelingLanguage Modelling	CodeCode Available	0
DoPTA: Improving Document Layout Analysis using Patch-Text Alignment	Dec 17, 2024	Document AIDocument Image Classification	—Unverified	0
Advanced ingestion process powered by LLM parsing for RAG system	Dec 16, 2024	Optical Character Recognition (OCR)RAG	—Unverified	0

Show:10 25 50

← PrevPage 3 of 25Next →

All datasets Benchmarking Chinese Text Recognition: Datasets, Baselines, and an Empirical Study VideoDB's OCR Benchmark Public Collection FSNS - Test I2L-140K SUT im2latex-100k

Benchmark Results

#	Model	Metric	Claimed	Verified	Status
1	DTrOCR 105M	Accuracy (%)	89.6	—	Unverified
2	DTrOCR	Accuracy (%)	89.6	—	Unverified
3	MaskOCR-L	Accuracy (%)	82.6	—	Unverified
4	TransOCR	Accuracy (%)	72.8	—	Unverified
5	SRN	Accuracy (%)	65	—	Unverified
6	MORAN	Accuracy (%)	64.3	—	Unverified
7	SEED	Accuracy (%)	61.2	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	GPT-4o	Average Accuracy	76.22	—	Unverified
2	Gemini-1.5 Pro	Average Accuracy	76.13	—	Unverified
3	Claude-3 Sonnet	Average Accuracy	67.71	—	Unverified
4	RapidOCR	Average Accuracy	56.98	—	Unverified
5	EasyOCR	Average Accuracy	49.3	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	STREET	Sequence error	27.54	—	Unverified
2	SEE	Sequence error	22	—	Unverified
3	AttentionOCR_Inception-resnet-v2_Location	Sequence error	15.8	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	I2L-NOPOOL	BLEU	89.09	—	Unverified
2	I2L-STRIPS	BLEU	89	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	Tesseract	Character Error Rate (CER)	0.08	—	Unverified
2	EasyOCR	Character Error Rate (CER)	0.07	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	I2L-STRIPS	BLEU	88.86	—	Unverified