Optical Character Recognition (OCR)

Optical Character Recognition or Optical Character Reader (OCR) is the electronic or mechanical conversion of images of typed, handwritten or printed text into machine-encoded text, whether from a scanned document, a photo of a document, a scene-photo (for example the text on signs and billboards in a landscape photo, license plates in cars...) or from subtitle text superimposed on an image (for example: from a television broadcast)

Papers

Recently Added Most Hyped Most Active Needs Verification Most Verified

Showing 301–350 of 1209 papers

Title	Date	Tasks	Status	Score
Measuring Intersectional Biases in Historical Documents	May 21, 2023	Optical Character RecognitionOptical Character Recognition (OCR)	CodeCode Available	5
M3T: A New Benchmark Dataset for Multi-Modal Document-Level Machine Translation	Jun 12, 2024	Document Level Machine TranslationDocument Translation	CodeCode Available	5
MaViLS, a Benchmark Dataset for Video-to-Slide Alignment, Assessing Baseline Accuracy with a Multimodal Alignment Algorithm Leveraging Speech, OCR, and Visual Features	Sep 25, 2024	Optical Character RecognitionOptical Character Recognition (OCR)	CodeCode Available	5
MIDV-2019: Challenges of the modern mobile-based document OCR	Oct 9, 2019	Face DetectionOptical Character Recognition (OCR)	CodeCode Available	5
LILA-BOTI : Leveraging Isolated Letter Accumulations By Ordering Teacher Insights for Bangla Handwriting Recognition	May 23, 2022	Handwriting RecognitionKnowledge Distillation	CodeCode Available	5
License Plate Detection and Recognition in Unconstrained Scenarios	Sep 1, 2018	License Plate DetectionLicense Plate Recognition	CodeCode Available	5
Levenshtein OCR	Sep 8, 2022	Imitation LearningOptical Character Recognition (OCR)	CodeCode Available	5
LOANet: A Lightweight Network Using Object Attention for Extracting Buildings and Roads from UAV Aerial Remote Sensing Images	Dec 16, 2022	DecoderOptical Character Recognition (OCR)	CodeCode Available	5
Adversarial Training with OCR Modality Perturbation for Scene-Text Visual Question Answering	Mar 14, 2024	Optical Character RecognitionOptical Character Recognition (OCR)	CodeCode Available	5
LEGAL-UQA: A Low-Resource Urdu-English Dataset for Legal Question Answering	Oct 16, 2024	Optical Character Recognition (OCR)Question Answering	CodeCode Available	5
Latent Tree Language Model	Nov 1, 2016	Automatic Speech Recognition (ASR)Language Modeling	CodeCode Available	5
DewarpNet: Single-Image Document Unwarping With Stacked 3D and 2D Regression Networks	Oct 1, 2019	3D geometryLocal Distortion	CodeCode Available	5
LAREX - A semi-automatic open-source Tool for Layout Analysis and Region Extraction on Early Printed Books	Jan 20, 2017	Optical Character Recognition (OCR)	CodeCode Available	5
KL3M Tokenizers: A Family of Domain-Specific and Character-Level Tokenizers for Legal, Financial, and Preprocessing Applications	Mar 21, 2025	16k4k	CodeCode Available	5
Jochre 3 and the Yiddish OCR corpus	Jan 14, 2025	Optical Character Recognition (OCR)	CodeCode Available	5
Low-Resource Language Processing: An OCR-Driven Summarization and Translation Pipeline	May 16, 2025	Abstractive Text SummarizationLanguage Modeling	CodeCode Available	5
Judge a Book by its Cover: Investigating Multi-Modal LLMs for Multi-Page Handwritten Document Transcription	Feb 27, 2025	Handwritten Text RecognitionHTR	CodeCode Available	5
LMV-RPA: Large Model Voting-based Robotic Process Automation	Dec 23, 2024	Optical Character RecognitionOptical Character Recognition (OCR)	CodeCode Available	5
Investigating OCR-Sensitive Neurons to Improve Entity Recognition in Historical Documents	Sep 25, 2024	named-entity-recognitionNamed Entity Recognition	CodeCode Available	5
Detecting Offensive Memes with Social Biases in Singapore Context Using Multimodal Large Language Models	Feb 25, 2025	Optical Character Recognition (OCR)	CodeCode Available	5
InstructOCR: Instruction Boosting Scene Text Spotting	Dec 20, 2024	Optical Character Recognition (OCR)Text Spotting	CodeCode Available	5
Indiscapes: Instance Segmentation Networks for Layout Parsing of Historical Indic Manuscripts	Dec 15, 2019	DiversityInstance Segmentation	CodeCode Available	5
Advancing Multilingual Handwritten Numeral Recognition with Attention-driven Transfer Learning	Mar 18, 2024	Handwritten Digit RecognitionOptical Character Recognition	CodeCode Available	5
Improving patch-based scene text script identification with ensembles of conjoined networks	Feb 24, 2016	General ClassificationOptical Character Recognition (OCR)	CodeCode Available	5
Infinity Parser: Layout Aware Reinforcement Learning for Scanned Document Parsing	Jun 1, 2025	Document AIdocument understanding	CodeCode Available	5
It Takes Two to Tango: Combining Visual and Textual Information for Detecting Duplicate Video-Based Bug Reports	Jan 22, 2021	Optical Character RecognitionOptical Character Recognition (OCR)	CodeCode Available	5
DeQA-Doc: Adapting DeQA-Score to Document Image Quality Assessment	Jul 17, 2025	Document Image Quality AssessmentImage Quality Assessment	CodeCode Available	5
Improving OCR Accuracy on Early Printed Books by combining Pretraining, Voting, and Active Learning	Feb 27, 2018	Active LearningOptical Character Recognition (OCR)	CodeCode Available	5
BaDLAD: A Large Multi-Domain Bengali Document Layout Analysis Dataset	Mar 9, 2023	BenchmarkingDeep Learning	CodeCode Available	5
DELINE8K: A Synthetic Data Pipeline for the Semantic Segmentation of Historical Documents	Apr 30, 2024	8kDiversity	CodeCode Available	5
An efficient way for segmentation of Bangla characters in printed document using curved scanning	May 13, 2016	Optical Character RecognitionOptical Character Recognition (OCR)	CodeCode Available	5
Improving OCR Accuracy on Early Printed Books using Deep Convolutional Networks	Feb 27, 2018	Optical Character Recognition (OCR)	CodeCode Available	5
Automatic Recognition of Learning Resource Category in a Digital Library	Nov 28, 2023	document-image-classificationDocument Image Classification	CodeCode Available	5
Automatic Metadata Extraction Incorporating Visual Features from Scanned Electronic Theses and Dissertations	Jul 1, 2021	Key Information ExtractionOptical Character Recognition (OCR)	CodeCode Available	5
Improving OCR Accuracy on Early Printed Books by utilizing Cross Fold Training and Voting	Nov 27, 2017	Optical Character Recognition (OCR)	CodeCode Available	5
Optimal Projections for Discriminative Dictionary Learning using the JL-lemma	Aug 27, 2023	Dictionary LearningDimensionality Reduction	CodeCode Available	5
KAP: MLLM-assisted OCR Text Enhancement for Hybrid Retrieval in Chinese Non-Narrative Documents	Mar 11, 2025	Optical Character Recognition (OCR)Retrieval	CodeCode Available	5
iExam: A Novel Online Exam Monitoring and Analysis System Based on Face Detection and Recognition	Jun 27, 2022	Face DetectionFace Recognition	CodeCode Available	5
High-Throughput Phenotyping using Computer Vision and Machine Learning	Jul 8, 2024	Image SegmentationOptical Character Recognition	CodeCode Available	5
Historical Ink: 19th Century Latin American Spanish Newspaper Corpus with LLM OCR Correction	Jul 4, 2024	Language ModelingLanguage Modelling	CodeCode Available	5
Handwritten Text Segmentation via End-to-End Learning of Convolutional Neural Network	Jun 12, 2019	Optical Character Recognition (OCR)Text Segmentation	CodeCode Available	5
DeepErase: Weakly Supervised Ink Artifact Removal in Document Text Images	Oct 15, 2019	Optical Character RecognitionOptical Character Recognition (OCR)	CodeCode Available	5
Handwriting Classification for the Analysis of Art-Historical Documents	Nov 4, 2020	ClassificationGeneral Classification	CodeCode Available	5
An Efficient and Layout-Independent Automatic License Plate Recognition System Based on the YOLO detector	Sep 4, 2019	Data AugmentationGPU	CodeCode Available	5
Handwritten Code Recognition for Pen-and-Paper CS Education	Aug 7, 2024	HallucinationLanguage Modeling	CodeCode Available	5
HENet: Forcing a Network to Think More for Font Recognition	Oct 21, 2021	Font RecognitionOptical Character Recognition (OCR)	CodeCode Available	5
Deciphering the Underserved: Benchmarking LLM OCR for Low-Resource Scripts	Dec 20, 2024	BenchmarkingOptical Character Recognition	CodeCode Available	5
DDI-100: Dataset for Text Detection and Recognition	Dec 25, 2019	Optical Character RecognitionOptical Character Recognition (OCR)	CodeCode Available	5
DCQA: Document-Level Chart Question Answering towards Complex Reasoning and Common-Sense Understanding	Oct 29, 2023	Answer GenerationChart Question Answering	CodeCode Available	5
Analyzing Green View Index and Green View Index best path using Google Street View and deep learning	Apr 26, 2021	Optical Character Recognition (OCR)Semantic Segmentation	CodeCode Available	5

Show:10 25 50

← PrevPage 7 of 25Next →

All datasets Benchmarking Chinese Text Recognition: Datasets, Baselines, and an Empirical Study VideoDB's OCR Benchmark Public Collection FSNS - Test I2L-140K SUT im2latex-100k

Benchmark Results

#	Model	Metric	Claimed	Verified	Status
1	DTrOCR 105M	Accuracy (%)	89.6	—	Unverified
2	DTrOCR	Accuracy (%)	89.6	—	Unverified
3	MaskOCR-L	Accuracy (%)	82.6	—	Unverified
4	TransOCR	Accuracy (%)	72.8	—	Unverified
5	SRN	Accuracy (%)	65	—	Unverified
6	MORAN	Accuracy (%)	64.3	—	Unverified
7	SEED	Accuracy (%)	61.2	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	GPT-4o	Average Accuracy	76.22	—	Unverified
2	Gemini-1.5 Pro	Average Accuracy	76.13	—	Unverified
3	Claude-3 Sonnet	Average Accuracy	67.71	—	Unverified
4	RapidOCR	Average Accuracy	56.98	—	Unverified
5	EasyOCR	Average Accuracy	49.3	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	STREET	Sequence error	27.54	—	Unverified
2	SEE	Sequence error	22	—	Unverified
3	AttentionOCR_Inception-resnet-v2_Location	Sequence error	15.8	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	I2L-NOPOOL	BLEU	89.09	—	Unverified
2	I2L-STRIPS	BLEU	89	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	Tesseract	Character Error Rate (CER)	0.08	—	Unverified
2	EasyOCR	Character Error Rate (CER)	0.07	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	I2L-STRIPS	BLEU	88.86	—	Unverified