Optical Character Recognition (OCR)

Optical Character Recognition or Optical Character Reader (OCR) is the electronic or mechanical conversion of images of typed, handwritten or printed text into machine-encoded text, whether from a scanned document, a photo of a document, a scene-photo (for example the text on signs and billboards in a landscape photo, license plates in cars...) or from subtitle text superimposed on an image (for example: from a television broadcast)

Papers

Recently Added Most Hyped Most Active Needs Verification Most Verified

Showing 1001–1050 of 1209 papers

Title	Date	Tasks	Status
RealKIE: Five Novel Datasets for Enterprise Key Information Extraction	Mar 29, 2024	Key Information ExtractionOptical Character Recognition (OCR)	—Unverified
Real-time information retrieval from Identity cards	Mar 26, 2020	Face DetectionInformation Retrieval	—Unverified
Jochre 3 and the Yiddish OCR corpus	Jan 14, 2025	Optical Character Recognition (OCR)	CodeCode Available
Combining OCR Models for Reading Early Modern Printed Books	May 11, 2023	Font RecognitionOptical Character Recognition (OCR)	CodeCode Available
Judge a Book by its Cover: Investigating Multi-Modal LLMs for Multi-Page Handwritten Document Transcription	Feb 27, 2025	Handwritten Text RecognitionHTR	CodeCode Available
Scrambled text: training Language Models to correct OCR errors using synthetic data	Sep 29, 2024	ArticlesLanguage Modeling	CodeCode Available
KAP: MLLM-assisted OCR Text Enhancement for Hybrid Retrieval in Chinese Non-Narrative Documents	Mar 11, 2025	Optical Character Recognition (OCR)Retrieval	CodeCode Available
SEARNN: Training RNNs with Global-Local Losses	Jun 14, 2017	Machine TranslationOptical Character Recognition (OCR)	CodeCode Available
Document Rectification and Illumination Correction using a Patch-based CNN	Sep 20, 2019	Optical Character Recognition (OCR)	CodeCode Available
Optimal Projections for Discriminative Dictionary Learning using the JL-lemma	Aug 27, 2023	Dictionary LearningDimensionality Reduction	CodeCode Available
COCO-Text: Dataset and Benchmark for Text Detection and Recognition in Natural Images	Jan 26, 2016	DiversityGeneral Classification	CodeCode Available
KL3M Tokenizers: A Family of Domain-Specific and Character-Level Tokenizers for Legal, Financial, and Preprocessing Applications	Mar 21, 2025	16k4k	CodeCode Available
Clustering-Based Article Identification in Historical Newspapers	Jun 1, 2019	ArticlesClustering	CodeCode Available
It Takes Two to Tango: Combining Visual and Textual Information for Detecting Duplicate Video-Based Bug Reports	Jan 22, 2021	Optical Character RecognitionOptical Character Recognition (OCR)	CodeCode Available
Optical Character Recognition of 19th Century Classical Commentaries: the Current State of Affairs	Oct 13, 2021	Optical Character RecognitionOptical Character Recognition (OCR)	CodeCode Available
A Multi-Object Rectified Attention Network for Scene Text Recognition	Jan 10, 2019	DecoderObject	CodeCode Available
Teaching Machines to Code: Neural Markup Generation with Visual Attention	Feb 15, 2018	MathOptical Character Recognition (OCR)	CodeCode Available
An Unsupervised Model of Orthographic Variation for Historical Document Transcription	Jun 1, 2016	Optical Character Recognition (OCR)	CodeCode Available
LAREX - A semi-automatic open-source Tool for Layout Analysis and Region Extraction on Early Printed Books	Jan 20, 2017	Optical Character Recognition (OCR)	CodeCode Available
Toward Advancing License Plate Super-Resolution in Real-World Scenarios: A Dataset and Benchmark	May 9, 2025	License Plate RecognitionOptical Character Recognition	CodeCode Available
Automatic Recognition of Learning Resource Category in a Digital Library	Nov 28, 2023	document-image-classificationDocument Image Classification	CodeCode Available
Investigating OCR-Sensitive Neurons to Improve Entity Recognition in Historical Documents	Sep 25, 2024	named-entity-recognitionNamed Entity Recognition	CodeCode Available
Latent Tree Language Model	Nov 1, 2016	Automatic Speech Recognition (ASR)Language Modeling	CodeCode Available
InstructOCR: Instruction Boosting Scene Text Spotting	Dec 20, 2024	Optical Character Recognition (OCR)Text Spotting	CodeCode Available
Infinity Parser: Layout Aware Reinforcement Learning for Scanned Document Parsing	Jun 1, 2025	Document AIdocument understanding	CodeCode Available
Select, Substitute, Search: A New Benchmark for Knowledge-Augmented Visual Question Answering	Mar 9, 2021	Optical Character Recognition (OCR)Question Answering	CodeCode Available
Optimization of Image Processing Algorithms for Character Recognition in Cultural Typewritten Documents	Nov 27, 2023	Optical Character RecognitionOptical Character Recognition (OCR)	CodeCode Available
Optimizing Nepali PDF Extraction: A Comparative Study of Parser and OCR Technologies	Jul 5, 2024	Optical Character RecognitionOptical Character Recognition (OCR)	CodeCode Available
World to Code: Multi-modal Data Generation via Self-Instructed Compositional Captioning and Filtering	Sep 30, 2024	Optical Character Recognition (OCR)Question Answering	CodeCode Available
Orchestrator-Agent Trust: A Modular Agentic AI Visual Classification System with Trust-Aware Orchestration and RAG-Based Reasoning	Jul 9, 2025	BenchmarkingImage Retrieval	CodeCode Available
LOANet: A Lightweight Network Using Object Attention for Extracting Buildings and Roads from UAV Aerial Remote Sensing Images	Dec 16, 2022	DecoderOptical Character Recognition (OCR)	CodeCode Available
Order-preserving Consistency Regularization for Domain Adaptation and Generalization	Sep 23, 2023	Data AugmentationDomain Adaptation	CodeCode Available
LEGAL-UQA: A Low-Resource Urdu-English Dataset for Legal Question Answering	Oct 16, 2024	Optical Character Recognition (OCR)Question Answering	CodeCode Available
Vehicle-Rear: A New Dataset to Explore Feature Fusion for Vehicle Identification Using Convolutional Neural Networks	Nov 13, 2019	Fine-Grained Vehicle ClassificationLicense Plate Detection	CodeCode Available
Indiscapes: Instance Segmentation Networks for Layout Parsing of Historical Indic Manuscripts	Dec 15, 2019	DiversityInstance Segmentation	CodeCode Available
Improving patch-based scene text script identification with ensembles of conjoined networks	Feb 24, 2016	General ClassificationOptical Character Recognition (OCR)	CodeCode Available
Levenshtein OCR	Sep 8, 2022	Imitation LearningOptical Character Recognition (OCR)	CodeCode Available
ViTextVQA: A Large-Scale Visual Question Answering Dataset for Evaluating Vietnamese Text Comprehension in Images	Apr 16, 2024	Multimodal Deep LearningOptical Character Recognition (OCR)	CodeCode Available
Wukong-Reader: Multi-modal Pre-training for Fine-grained Visual Document Understanding	Dec 19, 2022	Contrastive Learningdocument understanding	CodeCode Available
Improving OCR Accuracy on Early Printed Books by utilizing Cross Fold Training and Voting	Nov 27, 2017	Optical Character Recognition (OCR)	CodeCode Available
License Plate Detection and Recognition in Unconstrained Scenarios	Sep 1, 2018	License Plate DetectionLicense Plate Recognition	CodeCode Available
Answering Questions about Data Visualizations using Efficient Bimodal Fusion	Aug 5, 2019	Chart Question AnsweringOptical Character Recognition	CodeCode Available
Improving OCR Accuracy on Early Printed Books using Deep Convolutional Networks	Feb 27, 2018	Optical Character Recognition (OCR)	CodeCode Available
LILA-BOTI : Leveraging Isolated Letter Accumulations By Ordering Teacher Insights for Bangla Handwriting Recognition	May 23, 2022	Handwriting RecognitionKnowledge Distillation	CodeCode Available
OVeNet: Offset Vector Network for Semantic Segmentation	Mar 25, 2023	Optical Character Recognition (OCR)Scene Understanding	CodeCode Available
A model of diffuse Galactic Radio Emission from 10 MHz to 100 GHz	Feb 12, 2008	Optical Character RecognitionOptical Character Recognition (OCR)	CodeCode Available
Separate and Locate: Rethink the Text in Text-based Visual Question Answering	Aug 31, 2023	Optical Character Recognition (OCR)Position	CodeCode Available
Sequence-aware multimodal page classification of Brazilian legal documents	Jul 2, 2022	ClassificationManagement	CodeCode Available
Improving OCR Accuracy on Early Printed Books by combining Pretraining, Voting, and Active Learning	Feb 27, 2018	Active LearningOptical Character Recognition (OCR)	CodeCode Available
Implicit Language Model in LSTM for OCR	May 23, 2018	Language ModelingLanguage Modelling	CodeCode Available

Show:10 25 50

← PrevPage 21 of 25Next →

All datasets Benchmarking Chinese Text Recognition: Datasets, Baselines, and an Empirical Study VideoDB's OCR Benchmark Public Collection FSNS - Test I2L-140K SUT im2latex-100k

Benchmark Results

#	Model	Metric	Claimed	Verified	Status
1	DTrOCR	Accuracy (%)	89.6	—	Unverified
2	DTrOCR 105M	Accuracy (%)	89.6	—	Unverified
3	MaskOCR-L	Accuracy (%)	82.6	—	Unverified
4	TransOCR	Accuracy (%)	72.8	—	Unverified
5	SRN	Accuracy (%)	65	—	Unverified
6	MORAN	Accuracy (%)	64.3	—	Unverified
7	SEED	Accuracy (%)	61.2	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	GPT-4o	Average Accuracy	76.22	—	Unverified
2	Gemini-1.5 Pro	Average Accuracy	76.13	—	Unverified
3	Claude-3 Sonnet	Average Accuracy	67.71	—	Unverified
4	RapidOCR	Average Accuracy	56.98	—	Unverified
5	EasyOCR	Average Accuracy	49.3	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	STREET	Sequence error	27.54	—	Unverified
2	SEE	Sequence error	22	—	Unverified
3	AttentionOCR_Inception-resnet-v2_Location	Sequence error	15.8	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	I2L-NOPOOL	BLEU	89.09	—	Unverified
2	I2L-STRIPS	BLEU	89	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	Tesseract	Character Error Rate (CER)	0.08	—	Unverified
2	EasyOCR	Character Error Rate (CER)	0.07	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	I2L-STRIPS	BLEU	88.86	—	Unverified