Optical Character Recognition (OCR)

Optical Character Recognition or Optical Character Reader (OCR) is the electronic or mechanical conversion of images of typed, handwritten or printed text into machine-encoded text, whether from a scanned document, a photo of a document, a scene-photo (for example the text on signs and billboards in a landscape photo, license plates in cars...) or from subtitle text superimposed on an image (for example: from a television broadcast)

Papers

Recently Added Most Hyped Most Active Needs Verification Most Verified

Showing 351–400 of 1209 papers

Title	Date	Tasks	Status	Score
Infinity Parser: Layout Aware Reinforcement Learning for Scanned Document Parsing	Jun 1, 2025	Document AIdocument understanding	CodeCode Available	5
InstructOCR: Instruction Boosting Scene Text Spotting	Dec 20, 2024	Optical Character Recognition (OCR)Text Spotting	CodeCode Available	5
DDI-100: Dataset for Text Detection and Recognition	Dec 25, 2019	Optical Character RecognitionOptical Character Recognition (OCR)	CodeCode Available	5
DCQA: Document-Level Chart Question Answering towards Complex Reasoning and Common-Sense Understanding	Oct 29, 2023	Answer GenerationChart Question Answering	CodeCode Available	5
Improving patch-based scene text script identification with ensembles of conjoined networks	Feb 24, 2016	General ClassificationOptical Character Recognition (OCR)	CodeCode Available	5
Data-Driven Spelling Correction using Weighted Finite-State Methods	Aug 1, 2016	Optical Character Recognition (OCR)Spelling Correction	CodeCode Available	5
Improving OCR Accuracy on Early Printed Books by utilizing Cross Fold Training and Voting	Nov 27, 2017	Optical Character Recognition (OCR)	CodeCode Available	5
Indiscapes: Instance Segmentation Networks for Layout Parsing of Historical Indic Manuscripts	Dec 15, 2019	DiversityInstance Segmentation	CodeCode Available	5
Investigating OCR-Sensitive Neurons to Improve Entity Recognition in Historical Documents	Sep 25, 2024	named-entity-recognitionNamed Entity Recognition	CodeCode Available	5
Data Centric Domain Adaptation for Historical Text with OCR Errors	Jul 2, 2021	Cross-Domain Named Entity RecognitionDomain Adaptation	CodeCode Available	5
Implicit Language Model in LSTM for OCR	May 23, 2018	Language ModelingLanguage Modelling	CodeCode Available	5
Crossing Language Borders: A Pipeline for Indonesian Manhwa Translation	Jan 3, 2025	Machine TranslationObject Detection	CodeCode Available	5
iExam: A Novel Online Exam Monitoring and Analysis System Based on Face Detection and Recognition	Jun 27, 2022	Face DetectionFace Recognition	CodeCode Available	5
Augmented Math: Authoring AR-Based Explorable Explanations by Augmenting Static Math Textbooks	Jul 30, 2023	MathOptical Character Recognition	CodeCode Available	5
Improving OCR Accuracy on Early Printed Books by combining Pretraining, Voting, and Active Learning	Feb 27, 2018	Active LearningOptical Character Recognition (OCR)	CodeCode Available	5
Attention-based Extraction of Structured Information from Street View Imagery	Apr 11, 2017	Optical Character Recognition (OCR)	CodeCode Available	5
High-Throughput Phenotyping using Computer Vision and Machine Learning	Jul 8, 2024	Image SegmentationOptical Character Recognition	CodeCode Available	5
Corpus for Coreference Resolution on Scientific Papers	May 1, 2014	coreference-resolutionCoreference Resolution	CodeCode Available	5
Document Image Cleaning using Budget-Aware Black-Box Approximation	Jun 22, 2023	Optical Character Recognition (OCR)	CodeCode Available	5
A Gaussian Process Upsampling Model for Improvements in Optical Character Recognition	May 7, 2020	Optical Character RecognitionOptical Character Recognition (OCR)	CodeCode Available	5
Enhancing Cross-task Transferability of Adversarial Examples with Dispersion Reduction	May 8, 2019	image-classificationImage Classification	CodeCode Available	5
Do Current Video LLMs Have Strong OCR Abilities? A Preliminary Study	Dec 29, 2024	Motion DetectionOptical Character Recognition	CodeCode Available	5
Historical Ink: 19th Century Latin American Spanish Newspaper Corpus with LLM OCR Correction	Jul 4, 2024	Language ModelingLanguage Modelling	CodeCode Available	5
An agentic system with reinforcement-learned subsystem improvements for parsing form-like documents	May 16, 2025	FormLanguage Modeling	CodeCode Available	5
CORD: A Consolidated Receipt Dataset for Post-OCR Parsing	Sep 14, 2019	Optical Character Recognition (OCR)Semantic Parsing	CodeCode Available	5
Convolution-based Probability Gradient Loss for Semantic Segmentation	Apr 10, 2024	Optical Character Recognition (OCR)Semantic Segmentation	CodeCode Available	5
Orchestrator-Agent Trust: A Modular Agentic AI Visual Classification System with Trust-Aware Orchestration and RAG-Based Reasoning	Jul 9, 2025	BenchmarkingImage Retrieval	CodeCode Available	5
Order-preserving Consistency Regularization for Domain Adaptation and Generalization	Sep 23, 2023	Data AugmentationDomain Adaptation	CodeCode Available	5
Handwritten Text Segmentation via End-to-End Learning of Convolutional Neural Network	Jun 12, 2019	Optical Character Recognition (OCR)Text Segmentation	CodeCode Available	5
HENet: Forcing a Network to Think More for Font Recognition	Oct 21, 2021	Font RecognitionOptical Character Recognition (OCR)	CodeCode Available	5
Improving OCR Accuracy on Early Printed Books using Deep Convolutional Networks	Feb 27, 2018	Optical Character Recognition (OCR)	CodeCode Available	5
DriveThru: a Document Extraction Platform and Benchmark Datasets for Indonesian Local Language Archives	Nov 14, 2024	Optical Character RecognitionOptical Character Recognition (OCR)	CodeCode Available	5
LOANet: A Lightweight Network Using Object Attention for Extracting Buildings and Roads from UAV Aerial Remote Sensing Images	Dec 16, 2022	DecoderOptical Character Recognition (OCR)	CodeCode Available	5
A Tool for Facilitating OCR Postediting in Historical Documents	Apr 23, 2020	Language ModelingLanguage Modelling	CodeCode Available	5
A template-independent approach for information extraction in real estate documents	May 30, 2023	Information RetrievalNatural Language Understanding	CodeCode Available	5
Analyzing Green View Index and Green View Index best path using Google Street View and deep learning	Apr 26, 2021	Optical Character Recognition (OCR)Semantic Segmentation	CodeCode Available	5
GeoContrastNet: Contrastive Key-Value Edge Learning for Language-Agnostic Document Understanding	May 6, 2024	Contrastive Learningdocument understanding	CodeCode Available	5
From Videos to URLs: A Multi-Browser Guide To Extract User's Behavior with Optical Character Recognition	Nov 15, 2018	MarketingOptical Character Recognition	CodeCode Available	5
E2E-MLT - an Unconstrained End-to-End Method for Multi-Language Scene Text	Jan 30, 2018	Optical Character Recognition (OCR)	CodeCode Available	5
Brno Mobile OCR Dataset	Jul 2, 2019	BinarizationDenoising	CodeCode Available	5
From the Paft to the Fiiture: a Fully Automatic NMT and Word Embeddings Method for OCR Post-Correction	Oct 12, 2019	BIG-bench Machine LearningMachine Translation	CodeCode Available	5
Early evidence of how LLMs outperform traditional systems on OCR/HTR tasks for historical records	Jan 20, 2025	HTROptical Character Recognition (OCR)	CodeCode Available	5
Gated Recurrent Convolution Neural Network for OCR	Dec 1, 2017	General Classificationimage-classification	CodeCode Available	5
A Multi-Object Rectified Attention Network for Scene Text Recognition	Jan 10, 2019	DecoderObject	CodeCode Available	5
Handwriting Classification for the Analysis of Art-Historical Documents	Nov 4, 2020	ClassificationGeneral Classification	CodeCode Available	5
EATEN: Entity-aware Attention for Single Shot Visual Text Extraction	Sep 20, 2019	DecoderEntity Extraction using GAN	CodeCode Available	5
Quantifying Character Similarity with Vision Transformers	May 24, 2023	Optical Character Recognition (OCR)	CodeCode Available	5
FastTextSpotter: A High-Efficiency Transformer for Multilingual Scene Text Spotting	Aug 27, 2024	BenchmarkingDecoder	CodeCode Available	5
FashionLOGO: Prompting Multimodal Large Language Models for Fashion Logo Embeddings	Aug 17, 2023	Image RetrievalLogo Recognition	CodeCode Available	5
A Survey of Deep Learning Approaches for OCR and Document Understanding	Nov 27, 2020	document understandingOptical Character Recognition (OCR)	CodeCode Available	5

Show:10 25 50

← PrevPage 8 of 25Next →

All datasets Benchmarking Chinese Text Recognition: Datasets, Baselines, and an Empirical Study VideoDB's OCR Benchmark Public Collection FSNS - Test I2L-140K SUT im2latex-100k

Benchmark Results

#	Model	Metric	Claimed	Verified	Status
1	DTrOCR	Accuracy (%)	89.6	—	Unverified
2	DTrOCR 105M	Accuracy (%)	89.6	—	Unverified
3	MaskOCR-L	Accuracy (%)	82.6	—	Unverified
4	TransOCR	Accuracy (%)	72.8	—	Unverified
5	SRN	Accuracy (%)	65	—	Unverified
6	MORAN	Accuracy (%)	64.3	—	Unverified
7	SEED	Accuracy (%)	61.2	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	GPT-4o	Average Accuracy	76.22	—	Unverified
2	Gemini-1.5 Pro	Average Accuracy	76.13	—	Unverified
3	Claude-3 Sonnet	Average Accuracy	67.71	—	Unverified
4	RapidOCR	Average Accuracy	56.98	—	Unverified
5	EasyOCR	Average Accuracy	49.3	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	STREET	Sequence error	27.54	—	Unverified
2	SEE	Sequence error	22	—	Unverified
3	AttentionOCR_Inception-resnet-v2_Location	Sequence error	15.8	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	I2L-NOPOOL	BLEU	89.09	—	Unverified
2	I2L-STRIPS	BLEU	89	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	Tesseract	Character Error Rate (CER)	0.08	—	Unverified
2	EasyOCR	Character Error Rate (CER)	0.07	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	I2L-STRIPS	BLEU	88.86	—	Unverified