Optical Character Recognition (OCR)

Optical Character Recognition or Optical Character Reader (OCR) is the electronic or mechanical conversion of images of typed, handwritten or printed text into machine-encoded text, whether from a scanned document, a photo of a document, a scene-photo (for example the text on signs and billboards in a landscape photo, license plates in cars...) or from subtitle text superimposed on an image (for example: from a television broadcast)

Papers

Recently Added Most Hyped Most Active Needs Verification Most Verified

Showing 351–400 of 1209 papers

Title	Date	Tasks	Status
DocVLM: Make Your VLM an Efficient Reader	Dec 11, 2024	document understandingOptical Character Recognition (OCR)	—Unverified
DocSum: Domain-Adaptive Pre-training for Document Abstractive Summarization	Dec 11, 2024	Abstractive Text SummarizationDecision Making	—Unverified
Verb Mirage: Unveiling and Assessing Verb Concept Hallucinations in Multimodal Large Language Models	Dec 6, 2024	HallucinationOptical Character Recognition (OCR)	—Unverified
Text Change Detection in Multilingual Documents Using Image Comparison	Dec 5, 2024	BinarizationChange Detection	—Unverified
Aligned Music Notation and Lyrics Transcription	Dec 5, 2024	Language ModelingLanguage Modelling	CodeCode Available
SynFinTabs: A Dataset of Synthetic Financial Tables for Information and Table Extraction	Dec 5, 2024	ArticlesDataset Generation	CodeCode Available
CC-OCR: A Comprehensive and Challenging OCR Benchmark for Evaluating Large Multimodal Models in Literacy	Dec 3, 2024	HallucinationKey Information Extraction	—Unverified
Arabic Handwritten Document OCR Solution with Binarization and Adaptive Scale Fusion Detection	Dec 2, 2024	BinarizationOptical Character Recognition (OCR)	—Unverified
DLaVA: Document Language and Vision Assistant for Answer Localization with Enhanced Interpretability and Trustworthiness	Nov 29, 2024	Optical Character Recognition (OCR)Question Answering	CodeCode Available
VARCO-VISION: Expanding Frontiers in Korean Vision-Language Models	Nov 28, 2024	Language ModelingLanguage Modelling	—Unverified
Beyond Logit Lens: Contextual Embeddings for Robust Hallucination Detection & Grounding in VLMs	Nov 28, 2024	AttributeHallucination	—Unverified
SVTRv2: CTC Beats Encoder-Decoder Models in Scene Text Recognition	Nov 24, 2024	DecoderOptical Character Recognition (OCR)	—Unverified
Towards Accessible Learning: Deep Learning-Based Potential Dysgraphia Detection and OCR for Potentially Dysgraphic Handwriting	Nov 18, 2024	DiagnosticOptical Character Recognition	—Unverified
DriveThru: a Document Extraction Platform and Benchmark Datasets for Indonesian Local Language Archives	Nov 14, 2024	Optical Character RecognitionOptical Character Recognition (OCR)	CodeCode Available
Is Cognition consistent with Perception? Assessing and Mitigating Multimodal Knowledge Conflicts in Document Understanding	Nov 12, 2024	document understandingOptical Character Recognition (OCR)	—Unverified
Veri-Car: Towards Open-world Vehicle Information Retrieval	Nov 11, 2024	Information RetrievalLicense Plate Detection	—Unverified
NeKo: Toward Post Recognition Generative Correction Large Language Models with Task-Oriented Experts	Nov 8, 2024	Mixture-of-ExpertsOptical Character Recognition (OCR)	—Unverified
Hierarchical Visual Feature Aggregation for OCR-Free Document Understanding	Nov 8, 2024	document understandingOptical Character Recognition (OCR)	—Unverified
TAP-VL: Text Layout-Aware Pre-training for Enriched Vision-Language Models	Nov 7, 2024	Optical Character RecognitionOptical Character Recognition (OCR)	—Unverified
M3DocRAG: Multi-modal Retrieval is What You Need for Multi-page Multi-document Understanding	Nov 7, 2024	document understandingOptical Character Recognition	—Unverified
Out-of-Distribution Recovery with Object-Centric Keypoint Inverse Policy for Visuomotor Imitation Learning	Nov 5, 2024	Continual LearningImitation Learning	—Unverified
HIP: Hierarchical Point Modeling and Pre-training for Visual Information Extraction	Nov 2, 2024	Image ReconstructionOptical Character Recognition (OCR)	—Unverified
Handwriting Recognition in Historical Documents with Multimodal LLM	Oct 31, 2024	Handwriting RecognitionOptical Character Recognition	—Unverified
Are VLMs Really Blind	Oct 29, 2024	Language ModelingLanguage Modelling	CodeCode Available
Structured Analysis and Comparison of Alphabets in Historical Handwritten Ciphers	Oct 29, 2024	CryptanalysisOptical Character Recognition (OCR)	—Unverified
MMDocBench: Benchmarking Large Vision-Language Models for Fine-Grained Visual Document Understanding	Oct 25, 2024	Benchmarkingdocument understanding	—Unverified
Towards Visual Text Design Transfer Across Languages	Oct 24, 2024	Image GenerationOptical Character Recognition (OCR)	—Unverified
Reference-Based Post-OCR Processing with LLM for Diacritic Languages	Oct 17, 2024	Optical Character Recognition (OCR)	—Unverified
Harnessing Webpage UIs for Text-Rich Visual Understanding	Oct 17, 2024	document understandingOptical Character Recognition (OCR)	—Unverified
LEGAL-UQA: A Low-Resource Urdu-English Dataset for Legal Question Answering	Oct 16, 2024	Optical Character Recognition (OCR)Question Answering	CodeCode Available
Enhancing Assamese NLP Capabilities: Introducing a Centralized Dataset Repository	Oct 15, 2024	DiversityMachine Translation	CodeCode Available
Comparison of Image Preprocessing Techniques for Vehicle License Plate Recognition Using OCR: Performance and Accuracy Evaluation	Oct 15, 2024	License Plate RecognitionOptical Character Recognition	—Unverified
ReLayout: Towards Real-World Document Understanding via Layout-enhanced Pre-training	Oct 14, 2024	document understandingOptical Character Recognition (OCR)	—Unverified
TextMaster: Universal Controllable Text Edit	Oct 13, 2024	Optical Character Recognition (OCR)Style Transfer	—Unverified
MIRAGE: Multimodal Identification and Recognition of Annotations in Indian General Prescriptions	Oct 13, 2024	Handwriting RecognitionOptical Character Recognition	—Unverified
Unraveling Movie Genres through Cross-Attention Fusion of Bi-Modal Synergy of Poster	Oct 12, 2024	Genre classificationMarketing	—Unverified
Mero Nagarikta: Advanced Nepali Citizenship Data Extractor with Deep Learning-Powered Text Detection and OCR	Oct 8, 2024	object-detectionObject Detection	—Unverified
Automated Quality Control System for Canned Tuna Production using Artificial Vision	Oct 8, 2024	GPUOptical Character Recognition (OCR)	—Unverified
Transformers Utilization in Chart Understanding: A Review of Recent Advances & Future Trends	Oct 5, 2024	BenchmarkingChart Understanding	—Unverified
Khattat: Enhancing Readability and Concept Representation of Semantic Typography	Oct 1, 2024	Language ModelingLanguage Modelling	—Unverified
World to Code: Multi-modal Data Generation via Self-Instructed Compositional Captioning and Filtering	Sep 30, 2024	Optical Character Recognition (OCR)Question Answering	CodeCode Available
JaPOC: Japanese Post-OCR Correction Benchmark using Vouchers	Sep 30, 2024	Optical Character RecognitionOptical Character Recognition (OCR)	—Unverified
MM1.5: Methods, Analysis & Insights from Multimodal LLM Fine-tuning	Sep 30, 2024	Mixture-of-ExpertsOptical Character Recognition (OCR)	—Unverified
Scrambled text: training Language Models to correct OCR errors using synthetic data	Sep 29, 2024	ArticlesLanguage Modeling	CodeCode Available
See then Tell: Enhancing Key Information Extraction with Vision Grounding	Sep 29, 2024	Image to textKey Information Extraction	—Unverified
CodeSCAN: ScreenCast ANalysis for Video Programming Tutorials	Sep 27, 2024	Optical Character RecognitionOptical Character Recognition (OCR)	—Unverified
JoyType: A Robust Design for Multilingual Visual Text Creation	Sep 26, 2024	Image GenerationOptical Character Recognition (OCR)	—Unverified
MaViLS, a Benchmark Dataset for Video-to-Slide Alignment, Assessing Baseline Accuracy with a Multimodal Alignment Algorithm Leveraging Speech, OCR, and Visual Features	Sep 25, 2024	Optical Character RecognitionOptical Character Recognition (OCR)	CodeCode Available
Investigating OCR-Sensitive Neurons to Improve Entity Recognition in Historical Documents	Sep 25, 2024	named-entity-recognitionNamed Entity Recognition	CodeCode Available
@Bench: Benchmarking Vision-Language Models for Human-centered Assistive Technology	Sep 21, 2024	BenchmarkingDepth Estimation	—Unverified

Show:10 25 50

← PrevPage 8 of 25Next →

All datasets Benchmarking Chinese Text Recognition: Datasets, Baselines, and an Empirical Study VideoDB's OCR Benchmark Public Collection FSNS - Test I2L-140K SUT im2latex-100k

Benchmark Results

#	Model	Metric	Claimed	Verified	Status
1	DTrOCR 105M	Accuracy (%)	89.6	—	Unverified
2	DTrOCR	Accuracy (%)	89.6	—	Unverified
3	MaskOCR-L	Accuracy (%)	82.6	—	Unverified
4	TransOCR	Accuracy (%)	72.8	—	Unverified
5	SRN	Accuracy (%)	65	—	Unverified
6	MORAN	Accuracy (%)	64.3	—	Unverified
7	SEED	Accuracy (%)	61.2	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	GPT-4o	Average Accuracy	76.22	—	Unverified
2	Gemini-1.5 Pro	Average Accuracy	76.13	—	Unverified
3	Claude-3 Sonnet	Average Accuracy	67.71	—	Unverified
4	RapidOCR	Average Accuracy	56.98	—	Unverified
5	EasyOCR	Average Accuracy	49.3	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	STREET	Sequence error	27.54	—	Unverified
2	SEE	Sequence error	22	—	Unverified
3	AttentionOCR_Inception-resnet-v2_Location	Sequence error	15.8	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	I2L-NOPOOL	BLEU	89.09	—	Unverified
2	I2L-STRIPS	BLEU	89	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	Tesseract	Character Error Rate (CER)	0.08	—	Unverified
2	EasyOCR	Character Error Rate (CER)	0.07	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	I2L-STRIPS	BLEU	88.86	—	Unverified