Optical Character Recognition (OCR)

Optical Character Recognition or Optical Character Reader (OCR) is the electronic or mechanical conversion of images of typed, handwritten or printed text into machine-encoded text, whether from a scanned document, a photo of a document, a scene-photo (for example the text on signs and billboards in a landscape photo, license plates in cars...) or from subtitle text superimposed on an image (for example: from a television broadcast)

Papers

Recently Added Most Hyped Most Active Needs Verification Most Verified

Showing 326–350 of 1209 papers

Title	Date	Tasks	Status
SceneVTG++: Controllable Multilingual Visual Text Generation in the Wild	Jan 6, 2025	AttributeOptical Character Recognition	—Unverified
BoundingDocs: a Unified Dataset for Document Question Answering with Spatial Annotations	Jan 6, 2025	Document AIdocument understanding	—Unverified
Efficient Video-Based ALPR System Using YOLO and Visual Rhythm	Jan 4, 2025	License Plate RecognitionOptical Character Recognition	CodeCode Available
Emergency-Brake Simplex: Toward A Verifiably Safe Control-CPS Architecture for Abrupt Runtime Reachability Constraint Changes	Jan 3, 2025	Computational EfficiencyOptical Character Recognition (OCR)	—Unverified
Crossing Language Borders: A Pipeline for Indonesian Manhwa Translation	Jan 3, 2025	Machine TranslationObject Detection	CodeCode Available
Embedding Similarity Guided License Plate Super Resolution	Jan 2, 2025	License Plate RecognitionOptical Character Recognition	—Unverified
CLIP is Almost All You Need: Towards Parameter-Efficient Scene Text Retrieval without OCR	Jan 1, 2025	AllOptical Character Recognition	—Unverified
Towards Natural Language-Based Document Image Retrieval: New Dataset and Benchmark	Jan 1, 2025	document understandingImage Retrieval	—Unverified
Do Current Video LLMs Have Strong OCR Abilities? A Preliminary Study	Dec 29, 2024	Motion DetectionOptical Character Recognition	CodeCode Available
Optical Character Recognition using Convolutional Neural Networks for Ashokan Brahmi Inscriptions	Dec 29, 2024	Data AugmentationImage Segmentation	—Unverified
VORTEX: A Spatial Computing Framework for Optimized Drone Telemetry Extraction from First-Person View Flight Data	Dec 24, 2024	Computational EfficiencyOptical Character Recognition	—Unverified
HAUR: Human Annotation Understanding and Recognition Through Text-Heavy Images	Dec 24, 2024	Optical Character Recognition (OCR)Question Answering	—Unverified
ERPA: Efficient RPA Model Integrating OCR and LLMs for Intelligent Document Processing	Dec 24, 2024	Optical Character RecognitionOptical Character Recognition (OCR)	—Unverified
LMV-RPA: Large Model Voting-based Robotic Process Automation	Dec 23, 2024	Optical Character RecognitionOptical Character Recognition (OCR)	CodeCode Available
Deciphering the Underserved: Benchmarking LLM OCR for Low-Resource Scripts	Dec 20, 2024	BenchmarkingOptical Character Recognition	CodeCode Available
InstructOCR: Instruction Boosting Scene Text Spotting	Dec 20, 2024	Optical Character Recognition (OCR)Text Spotting	CodeCode Available
TextSleuth: Towards Explainable Tampered Text Detection	Dec 19, 2024	Domain GeneralizationOptical Character Recognition (OCR)	—Unverified
Track the Answer: Extending TextVQA from Image to Video with Spatio-Temporal Clues	Dec 17, 2024	Language ModelingLanguage Modelling	CodeCode Available
DoPTA: Improving Document Layout Analysis using Patch-Text Alignment	Dec 17, 2024	Document AIDocument Image Classification	—Unverified
Advanced ingestion process powered by LLM parsing for RAG system	Dec 16, 2024	Optical Character Recognition (OCR)RAG	—Unverified
RoundTripOCR: A Data Generation Technique for Enhancing Post-OCR Error Correction in Low-Resource Devanagari Languages	Dec 14, 2024	Machine TranslationOptical Character Recognition	CodeCode Available
Advancing Vehicle Plate Recognition: Multitasking Visual Language Models with VehiclePaliGemma	Dec 14, 2024	GPULicense Plate Recognition	—Unverified
Enhancement of text recognition for hanja handwritten documents of Ancient Korea	Dec 14, 2024	Data Augmentationobject-detection	—Unverified
One Filter to Deploy Them All: Robust Safety for Quadrupedal Navigation in Unknown Environments	Dec 13, 2024	AllOptical Character Recognition (OCR)	—Unverified
AI Adoption to Combat Financial Crime: Study on Natural Language Processing in Adverse Media Screening of Financial Services in English and Bangla multilingual interpretation	Dec 12, 2024	Optical Character Recognition (OCR)	—Unverified

Show:10 25 50

← PrevPage 14 of 49Next →

All datasets Benchmarking Chinese Text Recognition: Datasets, Baselines, and an Empirical Study VideoDB's OCR Benchmark Public Collection FSNS - Test I2L-140K SUT im2latex-100k

Benchmark Results

#	Model	Metric	Claimed	Verified	Status
1	DTrOCR 105M	Accuracy (%)	89.6	—	Unverified
2	DTrOCR	Accuracy (%)	89.6	—	Unverified
3	MaskOCR-L	Accuracy (%)	82.6	—	Unverified
4	TransOCR	Accuracy (%)	72.8	—	Unverified
5	SRN	Accuracy (%)	65	—	Unverified
6	MORAN	Accuracy (%)	64.3	—	Unverified
7	SEED	Accuracy (%)	61.2	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	GPT-4o	Average Accuracy	76.22	—	Unverified
2	Gemini-1.5 Pro	Average Accuracy	76.13	—	Unverified
3	Claude-3 Sonnet	Average Accuracy	67.71	—	Unverified
4	RapidOCR	Average Accuracy	56.98	—	Unverified
5	EasyOCR	Average Accuracy	49.3	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	STREET	Sequence error	27.54	—	Unverified
2	SEE	Sequence error	22	—	Unverified
3	AttentionOCR_Inception-resnet-v2_Location	Sequence error	15.8	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	I2L-NOPOOL	BLEU	89.09	—	Unverified
2	I2L-STRIPS	BLEU	89	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	Tesseract	Character Error Rate (CER)	0.08	—	Unverified
2	EasyOCR	Character Error Rate (CER)	0.07	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	I2L-STRIPS	BLEU	88.86	—	Unverified