Optical Character Recognition (OCR)

Optical Character Recognition or Optical Character Reader (OCR) is the electronic or mechanical conversion of images of typed, handwritten or printed text into machine-encoded text, whether from a scanned document, a photo of a document, a scene-photo (for example the text on signs and billboards in a landscape photo, license plates in cars...) or from subtitle text superimposed on an image (for example: from a television broadcast)

Papers

Recently Added Most Hyped Most Active Needs Verification Most Verified

Showing 201–250 of 1209 papers

Title	Date	Tasks	Status	Hype
Fused Text Recogniser and Deep Embeddings Improve Word Recognition and Retrieval	Jul 1, 2020	Optical Character Recognition (OCR)Retrieval	CodeCode Available	1
Improving accuracy and speeding up Document Image Classification through parallel systems	Jun 16, 2020	Document Classificationdocument-image-classification	CodeCode Available	1
CLEval: Character-Level Evaluation for Text Detection and Recognition Tasks	Jun 11, 2020	Optical Character Recognition (OCR)Text Detection	CodeCode Available	1
Fully Unsupervised Diversity Denoising with Convolutional Variational Autoencoders	Jun 10, 2020	Cell SegmentationDenoising	CodeCode Available	1
Structured Multimodal Attentions for TextVQA	Jun 1, 2020	Graph AttentionOptical Character Recognition (OCR)	CodeCode Available	1
SEED: Semantics Enhanced Encoder-Decoder Framework for Scene Text Recognition	May 22, 2020	DecoderOptical Character Recognition (OCR)	CodeCode Available	1
Large Scale Font Independent Urdu Text Recognition System	May 14, 2020	Incremental LearningOptical Character Recognition (OCR)	CodeCode Available	1
NAT: Noise-Aware Training for Robust Neural Sequence Labeling	May 14, 2020	Data Augmentationnamed-entity-recognition	CodeCode Available	1
The Newspaper Navigator Dataset: Extracting And Analyzing Visual Content from 16 Million Historic Newspaper Pages in Chronicling America	May 4, 2020	Optical Character Recognition (OCR)	CodeCode Available	1
PICK: Processing Key Information Extraction from Documents using Improved Graph Learning-Convolutional Networks	Apr 16, 2020	Graph LearningKey Information Extraction	CodeCode Available	1
ScrabbleGAN: Semi-Supervised Varying Length Handwritten Text Generation	Mar 23, 2020	Domain AdaptationHandwriting generation	CodeCode Available	1
Deep Relational Reasoning Graph Network for Arbitrary Shape Text Detection	Mar 17, 2020	graph constructionOptical Character Recognition (OCR)	CodeCode Available	1
LAMBERT: Layout-Aware (Language) Modeling for information extraction	Feb 19, 2020	Key Information ExtractionLanguage Modeling	CodeCode Available	1
Image-based table recognition: data, model, and evaluation	Nov 25, 2019	ArticlesDecoder	CodeCode Available	1
FUNSD: A Dataset for Form Understanding in Noisy Scanned Documents	May 27, 2019	FormOptical Character Recognition	CodeCode Available	1
Shape Robust Text Detection with Progressive Scale Expansion Network	Mar 28, 2019	Optical Character Recognition (OCR)Scene Text Detection	CodeCode Available	1
Accurate, Data-Efficient, Unconstrained Text Recognition with Convolutional Neural Networks	Dec 31, 2018	Handwriting RecognitionLicense Plate Recognition	CodeCode Available	1
Show, Attend and Read: A Simple and Strong Baseline for Irregular Text Recognition	Nov 2, 2018	DecoderIrregular Text Recognition	CodeCode Available	1
A Robust Real-Time Automatic License Plate Recognition Based on the YOLO Detector	Feb 26, 2018	Data AugmentationLicense Plate Detection	CodeCode Available	1
EAST: An Efficient and Accurate Scene Text Detector	Apr 11, 2017	Curved Text DetectionOptical Character Recognition (OCR)	CodeCode Available	1
VisionThink: Smart and Efficient Vision Language Model via Reinforcement Learning	Jul 17, 2025	Language ModelingLanguage Modelling	CodeCode Available	0
DeQA-Doc: Adapting DeQA-Score to Document Image Quality Assessment	Jul 17, 2025	Document Image Quality AssessmentImage Quality Assessment	CodeCode Available	0
Seeing the Signs: A Survey of Edge-Deployable OCR Models for Billboard Visibility Analysis	Jul 15, 2025	MarketingOptical Character Recognition	—Unverified	0
A Survey on MLLM-based Visually Rich Document Understanding: Methods, Challenges, and Emerging Trends	Jul 14, 2025	document understandingOptical Character Recognition	—Unverified	0
Design and Implementation of an OCR-Powered Pipeline for Table Extraction from Invoices	Jul 9, 2025	Boundary DetectionOptical Character Recognition (OCR)	—Unverified	0
Orchestrator-Agent Trust: A Modular Agentic AI Visual Classification System with Trust-Aware Orchestration and RAG-Based Reasoning	Jul 9, 2025	BenchmarkingImage Retrieval	CodeCode Available	0
PaddleOCR 3.0 Technical Report	Jul 8, 2025	document understandingKey Information Extraction	—Unverified	0
TextPixs: Glyph-Conditioned Diffusion with Character-Aware Attention and OCR-Guided Supervision	Jul 8, 2025	Image GenerationOptical Character Recognition (OCR)	—Unverified	0
DrishtiKon: Multi-Granular Visual Grounding for Text-Rich Document Images	Jun 26, 2025	document understandingOptical Character Recognition (OCR)	CodeCode Available	0
Logios : An open source Greek Polytonic Optical Character Recognition system	Jun 26, 2025	Optical Character RecognitionOptical Character Recognition (OCR)	—Unverified	0
Engineering RAG Systems for Real-World Applications: Design, Development, and Evaluation	Jun 25, 2025	Optical Character Recognition (OCR)RAG	—Unverified	0
Seeing is Believing? Mitigating OCR Hallucinations in Multimodal Large Language Models	Jun 25, 2025	document understandingHallucination	—Unverified	0
Unfolding the Past: A Comprehensive Deep Learning Approach to Analyzing Incunabula Pages	Jun 22, 2025	image-classificationImage Classification	—Unverified	0
An accurate and revised version of optical character recognition-based speech synthesis using LabVIEW	Jun 18, 2025	Optical Character RecognitionOptical Character Recognition (OCR)	—Unverified	0
FormGym: Doing Paperwork with Agents	Jun 17, 2025	FormInformation Retrieval	—Unverified	0
AdaVideoRAG: Omni-Contextual Adaptive Retrieval-Augmented Efficient Long Video Understanding	Jun 16, 2025	Optical Character Recognition (OCR)RAG	CodeCode Available	0
MultiFinBen: A Multilingual, Multimodal, and Difficulty-Aware Benchmark for Financial LLM Evaluation	Jun 16, 2025	Optical Character Recognition (OCR)	—Unverified	0
Efficient Medical VIE via Reinforcement Learning	Jun 16, 2025	DiversityOptical Character Recognition (OCR)	—Unverified	0
Generalization or Hallucination? Understanding Out-of-Context Reasoning in Transformers	Jun 12, 2025	HallucinationOptical Character Recognition (OCR)	—Unverified	0
Intelligent Automation for FDI Facilitation: Optimizing Tariff Exemption Processes with OCR And Large Language Models	Jun 12, 2025	Large Language ModelOptical Character Recognition	—Unverified	0
The OCR Quest for Generalization: Learning to recognize low-resource alphabets with model editing	Jun 7, 2025	Meta-LearningModel Editing	—Unverified	0
Reading in the Dark with Foveated Event Vision	Jun 7, 2025	Optical Character RecognitionOptical Character Recognition (OCR)	—Unverified	0
A Survey on Vietnamese Document Analysis and Recognition: Challenges and Future Directions	Jun 5, 2025	Computational Efficiencydocument understanding	—Unverified	0
Infinity Parser: Layout Aware Reinforcement Learning for Scanned Document Parsing	Jun 1, 2025	Document AIdocument understanding	CodeCode Available	0
Predicting the Past: Estimating Historical Appraisals with OCR and Machine Learning	May 30, 2025	Optical Character Recognition (OCR)	CodeCode Available	0
SARD: A Large-Scale Synthetic Arabic OCR Dataset for Book-Style Text Recognition	May 30, 2025	Optical Character RecognitionOptical Character Recognition (OCR)	—Unverified	0
Synthetic Document Question Answering in Hungarian	May 29, 2025	Optical Character Recognition (OCR)Question Answering	CodeCode Available	0
ChartMind: A Comprehensive Benchmark for Complex Real-world Multimodal Chart Question Answering	May 29, 2025	Chart Question AnsweringChart Understanding	—Unverified	0
TextSR: Diffusion Super-Resolution with Multilingual OCR Guidance	May 29, 2025	Image Super-ResolutionOptical Character Recognition	—Unverified	0
E2E Process Automation Leveraging Generative AI and IDP-Based Automation Agent: A Case Study on Corporate Expense Processing	May 27, 2025	Decision MakingOptical Character Recognition (OCR)	—Unverified	0

Show:10 25 50

← PrevPage 5 of 25Next →

All datasets Benchmarking Chinese Text Recognition: Datasets, Baselines, and an Empirical Study VideoDB's OCR Benchmark Public Collection FSNS - Test I2L-140K SUT im2latex-100k

Benchmark Results

#	Model	Metric	Claimed	Verified	Status
1	DTrOCR 105M	Accuracy (%)	89.6	—	Unverified
2	DTrOCR	Accuracy (%)	89.6	—	Unverified
3	MaskOCR-L	Accuracy (%)	82.6	—	Unverified
4	TransOCR	Accuracy (%)	72.8	—	Unverified
5	SRN	Accuracy (%)	65	—	Unverified
6	MORAN	Accuracy (%)	64.3	—	Unverified
7	SEED	Accuracy (%)	61.2	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	GPT-4o	Average Accuracy	76.22	—	Unverified
2	Gemini-1.5 Pro	Average Accuracy	76.13	—	Unverified
3	Claude-3 Sonnet	Average Accuracy	67.71	—	Unverified
4	RapidOCR	Average Accuracy	56.98	—	Unverified
5	EasyOCR	Average Accuracy	49.3	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	STREET	Sequence error	27.54	—	Unverified
2	SEE	Sequence error	22	—	Unverified
3	AttentionOCR_Inception-resnet-v2_Location	Sequence error	15.8	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	I2L-NOPOOL	BLEU	89.09	—	Unverified
2	I2L-STRIPS	BLEU	89	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	Tesseract	Character Error Rate (CER)	0.08	—	Unverified
2	EasyOCR	Character Error Rate (CER)	0.07	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	I2L-STRIPS	BLEU	88.86	—	Unverified