Optical Character Recognition (OCR)

Optical Character Recognition or Optical Character Reader (OCR) is the electronic or mechanical conversion of images of typed, handwritten or printed text into machine-encoded text, whether from a scanned document, a photo of a document, a scene-photo (for example the text on signs and billboards in a landscape photo, license plates in cars...) or from subtitle text superimposed on an image (for example: from a television broadcast)

Papers

Recently Added Most Hyped Most Active Needs Verification Most Verified

Showing 301–350 of 1209 papers

Title	Date	Tasks	Status
CalliReader: Contextualizing Chinese Calligraphy via an Embedding-Aligned Vision-Language Model	Mar 9, 2025	HallucinationLanguage Modeling	—Unverified
PP-DocBee: Improving Multimodal Document Understanding Through a Bag of Tricks	Mar 6, 2025	document understandingLanguage Modeling	—Unverified
AI-Driven Multi-Stage Computer Vision System for Defect Detection in Laser-Engraved Industrial Nameplates	Mar 5, 2025	Anomaly DetectionDefect Detection	—Unverified
Judge a Book by its Cover: Investigating Multi-Modal LLMs for Multi-Page Handwritten Document Transcription	Feb 27, 2025	Handwritten Text RecognitionHTR	CodeCode Available
Detecting Offensive Memes with Social Biases in Singapore Context Using Multimodal Large Language Models	Feb 25, 2025	Optical Character Recognition (OCR)	CodeCode Available
NusaAksara: A Multimodal and Multilingual Benchmark for Preserving Indonesian Indigenous Scripts	Feb 25, 2025	Image SegmentationLanguage Identification	—Unverified
MultiOCR-QA: Dataset for Evaluating Robustness of LLMs in Question Answering on Multilingual OCR Texts	Feb 24, 2025	Optical Character RecognitionOptical Character Recognition (OCR)	CodeCode Available
Shakti-VLMs: Scalable Vision-Language Models for Enterprise AI	Feb 24, 2025	document understandingMultimodal Reasoning	—Unverified
Visual Zero-Shot E-Commerce Product Attribute Value Extraction	Feb 21, 2025	Aspect ExtractionAttribute	—Unverified
KITAB-Bench: A Comprehensive Multi-Domain Benchmark for Arabic OCR and Document Understanding	Feb 20, 2025	document understandingOptical Character Recognition	—Unverified
Harnessing PDF Data for Improving Japanese Large Multimodal Models	Feb 20, 2025	Optical Character Recognition (OCR)	—Unverified
Reading the unreadable: Creating a dataset of 19th century English newspapers using image-to-text language models	Feb 18, 2025	Image to textOptical Character Recognition	CodeCode Available
Corrupted but Not Broken: Understanding and Mitigating the Negative Impacts of Corrupted Data in Visual Instruction Tuning	Feb 18, 2025	Optical Character Recognition (OCR)	—Unverified
Southern Newswire Corpus: A Large-Scale Dataset of Mid-Century Wire Articles Beyond the Front Page	Feb 17, 2025	ArticlesOptical Character Recognition (OCR)	—Unverified
MME-CoT: Benchmarking Chain-of-Thought in Large Multimodal Models for Reasoning Quality, Robustness, and Efficiency	Feb 13, 2025	BenchmarkingMath	—Unverified
Adapting Multilingual Embedding Models to Historical Luxembourgish	Feb 11, 2025	ArticlesOptical Character Recognition (OCR)	—Unverified
Éclair -- Extracting Content and Layout with Integrated Reading Order for Documents	Feb 6, 2025	Image CaptioningOptical Character Recognition	—Unverified
MME-Industry: A Cross-Industry Multimodal Evaluation Benchmark	Jan 28, 2025	MMEModel Optimization	—Unverified
Early evidence of how LLMs outperform traditional systems on OCR/HTR tasks for historical records	Jan 20, 2025	HTROptical Character Recognition (OCR)	CodeCode Available
Exploring AI-based System Design for Pixel-level Protected Health Information Detection in Medical Images	Jan 16, 2025	De-identificationOptical Character Recognition	—Unverified
MMDocIR: Benchmarking Multi-Modal Retrieval for Long Documents	Jan 15, 2025	BenchmarkingOptical Character Recognition (OCR)	—Unverified
Jochre 3 and the Yiddish OCR corpus	Jan 14, 2025	Optical Character Recognition (OCR)	CodeCode Available
Comparative analysis of optical character recognition methods for Sámi texts from the National Library of Norway	Jan 13, 2025	Optical Character RecognitionOptical Character Recognition (OCR)	CodeCode Available
Centurio: On Drivers of Multilingual Ability of Large Vision-Language Model	Jan 9, 2025	Language ModelingLanguage Modelling	CodeCode Available
Efficient License Plate Recognition in Videos Using Visual Rhythm and Accumulative Line Analysis	Jan 8, 2025	License Plate DetectionLicense Plate Recognition	CodeCode Available
SceneVTG++: Controllable Multilingual Visual Text Generation in the Wild	Jan 6, 2025	AttributeOptical Character Recognition	—Unverified
BoundingDocs: a Unified Dataset for Document Question Answering with Spatial Annotations	Jan 6, 2025	Document AIdocument understanding	—Unverified
Efficient Video-Based ALPR System Using YOLO and Visual Rhythm	Jan 4, 2025	License Plate RecognitionOptical Character Recognition	CodeCode Available
Emergency-Brake Simplex: Toward A Verifiably Safe Control-CPS Architecture for Abrupt Runtime Reachability Constraint Changes	Jan 3, 2025	Computational EfficiencyOptical Character Recognition (OCR)	—Unverified
Crossing Language Borders: A Pipeline for Indonesian Manhwa Translation	Jan 3, 2025	Machine TranslationObject Detection	CodeCode Available
Embedding Similarity Guided License Plate Super Resolution	Jan 2, 2025	License Plate RecognitionOptical Character Recognition	—Unverified
CLIP is Almost All You Need: Towards Parameter-Efficient Scene Text Retrieval without OCR	Jan 1, 2025	AllOptical Character Recognition	—Unverified
Towards Natural Language-Based Document Image Retrieval: New Dataset and Benchmark	Jan 1, 2025	document understandingImage Retrieval	—Unverified
Do Current Video LLMs Have Strong OCR Abilities? A Preliminary Study	Dec 29, 2024	Motion DetectionOptical Character Recognition	CodeCode Available
Optical Character Recognition using Convolutional Neural Networks for Ashokan Brahmi Inscriptions	Dec 29, 2024	Data AugmentationImage Segmentation	—Unverified
VORTEX: A Spatial Computing Framework for Optimized Drone Telemetry Extraction from First-Person View Flight Data	Dec 24, 2024	Computational EfficiencyOptical Character Recognition	—Unverified
HAUR: Human Annotation Understanding and Recognition Through Text-Heavy Images	Dec 24, 2024	Optical Character Recognition (OCR)Question Answering	—Unverified
ERPA: Efficient RPA Model Integrating OCR and LLMs for Intelligent Document Processing	Dec 24, 2024	Optical Character RecognitionOptical Character Recognition (OCR)	—Unverified
LMV-RPA: Large Model Voting-based Robotic Process Automation	Dec 23, 2024	Optical Character RecognitionOptical Character Recognition (OCR)	CodeCode Available
Deciphering the Underserved: Benchmarking LLM OCR for Low-Resource Scripts	Dec 20, 2024	BenchmarkingOptical Character Recognition	CodeCode Available
InstructOCR: Instruction Boosting Scene Text Spotting	Dec 20, 2024	Optical Character Recognition (OCR)Text Spotting	CodeCode Available
TextSleuth: Towards Explainable Tampered Text Detection	Dec 19, 2024	Domain GeneralizationOptical Character Recognition (OCR)	—Unverified
Track the Answer: Extending TextVQA from Image to Video with Spatio-Temporal Clues	Dec 17, 2024	Language ModelingLanguage Modelling	CodeCode Available
DoPTA: Improving Document Layout Analysis using Patch-Text Alignment	Dec 17, 2024	Document AIDocument Image Classification	—Unverified
Advanced ingestion process powered by LLM parsing for RAG system	Dec 16, 2024	Optical Character Recognition (OCR)RAG	—Unverified
RoundTripOCR: A Data Generation Technique for Enhancing Post-OCR Error Correction in Low-Resource Devanagari Languages	Dec 14, 2024	Machine TranslationOptical Character Recognition	CodeCode Available
Advancing Vehicle Plate Recognition: Multitasking Visual Language Models with VehiclePaliGemma	Dec 14, 2024	GPULicense Plate Recognition	—Unverified
Enhancement of text recognition for hanja handwritten documents of Ancient Korea	Dec 14, 2024	Data Augmentationobject-detection	—Unverified
One Filter to Deploy Them All: Robust Safety for Quadrupedal Navigation in Unknown Environments	Dec 13, 2024	AllOptical Character Recognition (OCR)	—Unverified
AI Adoption to Combat Financial Crime: Study on Natural Language Processing in Adverse Media Screening of Financial Services in English and Bangla multilingual interpretation	Dec 12, 2024	Optical Character Recognition (OCR)	—Unverified

Show:10 25 50

← PrevPage 7 of 25Next →

All datasets Benchmarking Chinese Text Recognition: Datasets, Baselines, and an Empirical Study VideoDB's OCR Benchmark Public Collection FSNS - Test I2L-140K SUT im2latex-100k

Benchmark Results

#	Model	Metric	Claimed	Verified	Status
1	DTrOCR	Accuracy (%)	89.6	—	Unverified
2	DTrOCR 105M	Accuracy (%)	89.6	—	Unverified
3	MaskOCR-L	Accuracy (%)	82.6	—	Unverified
4	TransOCR	Accuracy (%)	72.8	—	Unverified
5	SRN	Accuracy (%)	65	—	Unverified
6	MORAN	Accuracy (%)	64.3	—	Unverified
7	SEED	Accuracy (%)	61.2	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	GPT-4o	Average Accuracy	76.22	—	Unverified
2	Gemini-1.5 Pro	Average Accuracy	76.13	—	Unverified
3	Claude-3 Sonnet	Average Accuracy	67.71	—	Unverified
4	RapidOCR	Average Accuracy	56.98	—	Unverified
5	EasyOCR	Average Accuracy	49.3	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	STREET	Sequence error	27.54	—	Unverified
2	SEE	Sequence error	22	—	Unverified
3	AttentionOCR_Inception-resnet-v2_Location	Sequence error	15.8	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	I2L-NOPOOL	BLEU	89.09	—	Unverified
2	I2L-STRIPS	BLEU	89	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	Tesseract	Character Error Rate (CER)	0.08	—	Unverified
2	EasyOCR	Character Error Rate (CER)	0.07	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	I2L-STRIPS	BLEU	88.86	—	Unverified