Optical Character Recognition (OCR)

Optical Character Recognition or Optical Character Reader (OCR) is the electronic or mechanical conversion of images of typed, handwritten or printed text into machine-encoded text, whether from a scanned document, a photo of a document, a scene-photo (for example the text on signs and billboards in a landscape photo, license plates in cars...) or from subtitle text superimposed on an image (for example: from a television broadcast)

Papers

Recently Added Most Hyped Most Active Needs Verification Most Verified

Showing 51–100 of 1209 papers

Title	Date	Tasks	Status	Hype
OCR Hinders RAG: Evaluating the Cascading Impact of OCR on Retrieval-Augmented Generation	Dec 3, 2024	Optical Character RecognitionOptical Character Recognition (OCR)	CodeCode Available	2
GIT: A Generative Image-to-text Transformer for Vision and Language	May 27, 2022	DecoderImage Captioning	CodeCode Available	2
OCRBench: On the Hidden Mystery of OCR in Large Multimodal Models	May 13, 2023	Key Information ExtractionNutrition	CodeCode Available	2
PP-OCR: A Practical Ultra Lightweight OCR System	Sep 21, 2020	Computational EfficiencyOptical Character Recognition	CodeCode Available	2
NAF-DPM: A Nonlinear Activation-Free Diffusion Probabilistic Model for Document Enhancement	Apr 8, 2024	BinarizationDocument Enhancement	CodeCode Available	2
MMLongBench-Doc: Benchmarking Long-context Document Understanding with Visualizations	Jul 1, 2024	Benchmarkingdocument understanding	CodeCode Available	2
A Bounding Box is Worth One Token: Interleaving Layout and Text in a Large Language Model for Document Understanding	Jul 2, 2024	document understandingKey Information Extraction	CodeCode Available	2
LLaVAR: Enhanced Visual Instruction Tuning for Text-Rich Image Understanding	Jun 29, 2023	16kImage Captioning	CodeCode Available	2
MegaHan97K: A Large-Scale Dataset for Mega-Category Chinese Character Recognition with over 97K Categories	Jun 5, 2025	BenchmarkingOptical Character Recognition	CodeCode Available	2
Let's Fuse Step by Step: A Generative Fusion Decoding Algorithm with LLMs for Multi-modal Text Recognition	May 23, 2024	Automatic Speech RecognitionAutomatic Speech Recognition (ASR)	CodeCode Available	2
TACO: Learning Multi-modal Action Models with Synthetic Chains-of-Thought-and-Action	Dec 7, 2024	Depth EstimationMathematical Reasoning	CodeCode Available	2
Visually Guided Generative Text-Layout Pre-training for Document Intelligence	Mar 25, 2024	Document Classificationdocument understanding	CodeCode Available	2
Image-text matching for large-scale book collections	Jul 29, 2024	Image-text matchingOptical Character Recognition (OCR)	CodeCode Available	1
Image-based table recognition: data, model, and evaluation	Nov 25, 2019	ArticlesDecoder	CodeCode Available	1
Hespi: A pipeline for automatically detecting information from hebarium specimen sheets	Oct 11, 2024	Handwritten Text RecognitionHTR	CodeCode Available	1
FUNSD: A Dataset for Form Understanding in Noisy Scanned Documents	May 27, 2019	FormOptical Character Recognition	CodeCode Available	1
hmBERT: Historical Multilingual Language Models for Named Entity Recognition	May 31, 2022	Language ModelingLanguage Modelling	CodeCode Available	1
Graph Neural Networks and Representation Embedding for Table Extraction in PDF Documents	Aug 23, 2022	Optical Character Recognition (OCR)Table Extraction	CodeCode Available	1
A Benchmark and Dataset for Post-OCR text correction in Sanskrit	Nov 15, 2022	AstronomyOptical Character Recognition (OCR)	CodeCode Available	1
A Robust Real-Time Automatic License Plate Recognition Based on the YOLO Detector	Feb 26, 2018	Data AugmentationLicense Plate Detection	CodeCode Available	1
Adapting OCR with limited supervision	Jul 27, 2020	Optical Character Recognition (OCR)	CodeCode Available	1
HAPI: A Large-scale Longitudinal Dataset of Commercial ML API Predictions	Sep 18, 2022	object-detectionObject Detection	CodeCode Available	1
Implicit Feature Alignment: Learn to Convert Text Recognizer to Text Spotter	Jun 10, 2021	Optical Character RecognitionOptical Character Recognition (OCR)	CodeCode Available	1
Geometry Restoration and Dewarping of Camera-Captured Document Images	Jan 6, 2025	Optical Character RecognitionOptical Character Recognition (OCR)	CodeCode Available	1
GenPlot: Increasing the Scale and Diversity of Chart Derendering Data	Jun 20, 2023	DerenderingDiversity	CodeCode Available	1
German Parliamentary Corpus (GerParCor)	Apr 21, 2022	Optical Character Recognition (OCR)	CodeCode Available	1
Generating Synthetic Handwritten Historical Documents With OCR Constrained GANs	Mar 15, 2021	Optical Character Recognition (OCR)Synthetic Data Generation	CodeCode Available	1
GenKIE: Robust Generative Multimodal Document Key Information Extraction	Oct 24, 2023	DecoderKey Information Extraction	CodeCode Available	1
Fused Text Recogniser and Deep Embeddings Improve Word Recognition and Retrieval	Jul 1, 2020	Optical Character Recognition (OCR)Retrieval	CodeCode Available	1
A Comprehensive Gold Standard and Benchmark for Comics Text Detection and Recognition	Dec 27, 2022	Optical Character RecognitionOptical Character Recognition (OCR)	CodeCode Available	1
FuseCap: Leveraging Large Language Models for Enriched Fused Image Captions	May 28, 2023	AttributeImage Captioning	CodeCode Available	1
Focus, Distinguish, and Prompt: Unleashing CLIP for Efficient and Flexible Scene Text Retrieval	Aug 1, 2024	AttributeOptical Character Recognition	CodeCode Available	1
ARB: A Comprehensive Arabic Multimodal Reasoning Benchmark	May 22, 2025	document understandingMultimodal Reasoning	CodeCode Available	1
From Text to Pixel: Advancing Long-Context Understanding in MLLMs	May 23, 2024	Language ModelingLanguage Modelling	CodeCode Available	1
Improving accuracy and speeding up Document Image Classification through parallel systems	Jun 16, 2020	Document Classificationdocument-image-classification	CodeCode Available	1
Exploring OCR Capabilities of GPT-4V(ision) : A Quantitative and In-depth Evaluation	Oct 25, 2023	Handwritten Text RecognitionKey Information Extraction	CodeCode Available	1
Efficient OCR for Building a Diverse Digital History	Apr 5, 2023	DiversityImage Retrieval	CodeCode Available	1
Enhancing License Plate Super-Resolution: A Layout-Aware and Character-Driven Approach	Aug 27, 2024	License Plate RecognitionOptical Character Recognition	CodeCode Available	1
FAWA: Fast Adversarial Watermark Attack on Optical Character Recognition (OCR) Systems	Dec 15, 2020	Optical Character RecognitionOptical Character Recognition (OCR)	CodeCode Available	1
DSG: An End-to-End Document Structure Generator	Oct 13, 2023	Optical Character Recognition (OCR)	CodeCode Available	1
EAST: An Efficient and Accurate Scene Text Detector	Apr 11, 2017	Curved Text DetectionOptical Character Recognition (OCR)	CodeCode Available	1
End-to-End Information Extraction by Character-Level Embedding and Multi-Stage Attentional U-Net	Jun 2, 2021	Optical Character Recognition (OCR)	CodeCode Available	1
Exploring Better Text Image Translation with Multimodal Codebook	May 27, 2023	Machine TranslationOptical Character Recognition	CodeCode Available	1
Exploring Cross-Image Pixel Contrast for Semantic Segmentation	Jan 28, 2021	Metric LearningOptical Character Recognition (OCR)	CodeCode Available	1
Easter2.0: Improving convolutional models for handwritten text recognition	May 30, 2022	Data AugmentationFew-Shot Learning	CodeCode Available	1
FigStep: Jailbreaking Large Vision-Language Models via Typographic Visual Prompts	Nov 9, 2023	Optical Character Recognition (OCR)Safety Alignment	CodeCode Available	1
DocScanner: Robust Document Image Rectification with Progressive Learning	Oct 28, 2021	Optical Character Recognition (OCR)	CodeCode Available	1
DocReal: Robust Document Dewarping of Real-Life Images via Attention-Enhanced Control Point Prediction	Dec 1, 2023	Optical Character Recognition (OCR)	CodeCode Available	1
DocTr: Document Image Transformer for Geometric Unwarping and Illumination Correction	Oct 25, 2021	Optical Character Recognition (OCR)	CodeCode Available	1
DocLayLLM: An Efficient Multi-modal Extension of Large Language Models for Text-rich Document Understanding	Jan 1, 2025	document understandingOptical Character Recognition (OCR)	CodeCode Available	1

Show:10 25 50

← PrevPage 2 of 25Next →

All datasets Benchmarking Chinese Text Recognition: Datasets, Baselines, and an Empirical Study VideoDB's OCR Benchmark Public Collection FSNS - Test I2L-140K SUT im2latex-100k

Benchmark Results

#	Model	Metric	Claimed	Verified	Status
1	DTrOCR	Accuracy (%)	89.6	—	Unverified
2	DTrOCR 105M	Accuracy (%)	89.6	—	Unverified
3	MaskOCR-L	Accuracy (%)	82.6	—	Unverified
4	TransOCR	Accuracy (%)	72.8	—	Unverified
5	SRN	Accuracy (%)	65	—	Unverified
6	MORAN	Accuracy (%)	64.3	—	Unverified
7	SEED	Accuracy (%)	61.2	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	GPT-4o	Average Accuracy	76.22	—	Unverified
2	Gemini-1.5 Pro	Average Accuracy	76.13	—	Unverified
3	Claude-3 Sonnet	Average Accuracy	67.71	—	Unverified
4	RapidOCR	Average Accuracy	56.98	—	Unverified
5	EasyOCR	Average Accuracy	49.3	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	STREET	Sequence error	27.54	—	Unverified
2	SEE	Sequence error	22	—	Unverified
3	AttentionOCR_Inception-resnet-v2_Location	Sequence error	15.8	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	I2L-NOPOOL	BLEU	89.09	—	Unverified
2	I2L-STRIPS	BLEU	89	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	Tesseract	Character Error Rate (CER)	0.08	—	Unverified
2	EasyOCR	Character Error Rate (CER)	0.07	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	I2L-STRIPS	BLEU	88.86	—	Unverified