Optical Character Recognition (OCR)

Optical Character Recognition or Optical Character Reader (OCR) is the electronic or mechanical conversion of images of typed, handwritten or printed text into machine-encoded text, whether from a scanned document, a photo of a document, a scene-photo (for example the text on signs and billboards in a landscape photo, license plates in cars...) or from subtitle text superimposed on an image (for example: from a television broadcast)

Papers

Recently Added Most Hyped Most Active Needs Verification Most Verified

Showing 101–150 of 1209 papers

Title	Date	Tasks	Status	Hype
Graph Neural Networks and Representation Embedding for Table Extraction in PDF Documents	Aug 23, 2022	Optical Character Recognition (OCR)Table Extraction	CodeCode Available	1
Let's Enhance: A Deep Learning Approach to Extreme Deblurring of Text Images	Nov 18, 2022	DeblurringImage Deblurring	CodeCode Available	1
GenKIE: Robust Generative Multimodal Document Key Information Extraction	Oct 24, 2023	DecoderKey Information Extraction	CodeCode Available	1
Generating Synthetic Handwritten Historical Documents With OCR Constrained GANs	Mar 15, 2021	Optical Character Recognition (OCR)Synthetic Data Generation	CodeCode Available	1
GenPlot: Increasing the Scale and Diversity of Chart Derendering Data	Jun 20, 2023	DerenderingDiversity	CodeCode Available	1
LogicOCR: Do Your Large Multimodal Models Excel at Logical Reasoning on Text-Rich Images?	May 18, 2025	Logical ReasoningMultimodal Reasoning	CodeCode Available	1
Fused Text Recogniser and Deep Embeddings Improve Word Recognition and Retrieval	Jul 1, 2020	Optical Character Recognition (OCR)Retrieval	CodeCode Available	1
Geometry Restoration and Dewarping of Camera-Captured Document Images	Jan 6, 2025	Optical Character RecognitionOptical Character Recognition (OCR)	CodeCode Available	1
An Empirical Study of Scaling Law for OCR	Dec 29, 2023	Optical Character RecognitionOptical Character Recognition (OCR)	CodeCode Available	1
From Text to Pixel: Advancing Long-Context Understanding in MLLMs	May 23, 2024	Language ModelingLanguage Modelling	CodeCode Available	1
Focus, Distinguish, and Prompt: Unleashing CLIP for Efficient and Flexible Scene Text Retrieval	Aug 1, 2024	AttributeOptical Character Recognition	CodeCode Available	1
MRN: Multiplexed Routing Network for Incremental Multilingual Text Recognition	May 24, 2023	Continual LearningIncremental Learning	CodeCode Available	1
Multimodal LLMs for OCR, OCR Post-Correction, and Named Entity Recognition in Historical Documents	Apr 1, 2025	named-entity-recognitionNamed Entity Recognition	CodeCode Available	1
Modular Multimodal Machine Learning for Extraction of Theorems and Proofs in Long Scientific Documents (Extended Version)	Jul 18, 2023	ArticlesDocument AI	CodeCode Available	1
FuseCap: Leveraging Large Language Models for Enriched Fused Image Captions	May 28, 2023	AttributeImage Captioning	CodeCode Available	1
German Parliamentary Corpus (GerParCor)	Apr 21, 2022	Optical Character Recognition (OCR)	CodeCode Available	1
Neural OCR Post-Hoc Correction of Historical Corpora	Feb 1, 2021	Optical Character RecognitionOptical Character Recognition (OCR)	CodeCode Available	1
ARB: A Comprehensive Arabic Multimodal Reasoning Benchmark	May 22, 2025	document understandingMultimodal Reasoning	CodeCode Available	1
Implicit Feature Alignment: Learn to Convert Text Recognizer to Text Spotter	Jun 10, 2021	Optical Character RecognitionOptical Character Recognition (OCR)	CodeCode Available	1
FAWA: Fast Adversarial Watermark Attack on Optical Character Recognition (OCR) Systems	Dec 15, 2020	Optical Character RecognitionOptical Character Recognition (OCR)	CodeCode Available	1
Exploring OCR Capabilities of GPT-4V(ision) : A Quantitative and In-depth Evaluation	Oct 25, 2023	Handwritten Text RecognitionKey Information Extraction	CodeCode Available	1
OCR-IDL: OCR Annotations for Industry Document Library Dataset	Feb 25, 2022	Optical Character Recognition (OCR)	CodeCode Available	1
FigStep: Jailbreaking Large Vision-Language Models via Typographic Visual Prompts	Nov 9, 2023	Optical Character Recognition (OCR)Safety Alignment	CodeCode Available	1
ODM: A Text-Image Further Alignment Pre-training Approach for Scene Text Detection and Spotting	Mar 1, 2024	Optical Character RecognitionOptical Character Recognition (OCR)	CodeCode Available	1
Accurate, Data-Efficient, Unconstrained Text Recognition with Convolutional Neural Networks	Dec 31, 2018	Handwriting RecognitionLicense Plate Recognition	CodeCode Available	1
An Automatic Approach for Generating Rich, Linked Geo-Metadata from Historical Map Images	Dec 3, 2021	Optical Character RecognitionOptical Character Recognition (OCR)	CodeCode Available	1
Exploring Cross-Image Pixel Contrast for Semantic Segmentation	Jan 28, 2021	Metric LearningOptical Character Recognition (OCR)	CodeCode Available	1
End-to-End Information Extraction by Character-Level Embedding and Multi-Stage Attentional U-Net	Jun 2, 2021	Optical Character Recognition (OCR)	CodeCode Available	1
Easter2.0: Improving convolutional models for handwritten text recognition	May 30, 2022	Data AugmentationFew-Shot Learning	CodeCode Available	1
Enhancing License Plate Super-Resolution: A Layout-Aware and Character-Driven Approach	Aug 27, 2024	License Plate RecognitionOptical Character Recognition	CodeCode Available	1
Attack of the Tails: Yes, You Really Can Backdoor Federated Learning	Jul 9, 2020	FairnessFederated Learning	CodeCode Available	1
AT-ST: Self-Training Adaptation Strategy for OCR in Domains with Limited Transcriptions	Apr 27, 2021	Optical Character Recognition (OCR)	CodeCode Available	1
EAST: An Efficient and Accurate Scene Text Detector	Apr 11, 2017	Curved Text DetectionOptical Character Recognition (OCR)	CodeCode Available	1
Exploring Better Text Image Translation with Multimodal Codebook	May 27, 2023	Machine TranslationOptical Character Recognition	CodeCode Available	1
FlowLearn: Evaluating Large Vision-Language Models on Flowchart Understanding	Jul 6, 2024	Optical Character Recognition (OCR)Visual Question Answering (VQA)	CodeCode Available	1
DocLayLLM: An Efficient Multi-modal Extension of Large Language Models for Text-rich Document Understanding	Jan 1, 2025	document understandingOptical Character Recognition (OCR)	CodeCode Available	1
DocReal: Robust Document Dewarping of Real-Life Images via Attention-Enhanced Control Point Prediction	Dec 1, 2023	Optical Character Recognition (OCR)	CodeCode Available	1
DocFormerv2: Local Features for Document Understanding	Jun 2, 2023	Decoderdocument understanding	CodeCode Available	1
Fully Unsupervised Diversity Denoising with Convolutional Variational Autoencoders	Jun 10, 2020	Cell SegmentationDenoising	CodeCode Available	1
DocLayLLM: An Efficient and Effective Multi-modal Extension of Large Language Models for Text-rich Document Understanding	Aug 27, 2024	document understandingOptical Character Recognition (OCR)	CodeCode Available	1
DocScanner: Robust Document Image Rectification with Progressive Learning	Oct 28, 2021	Optical Character Recognition (OCR)	CodeCode Available	1
DocParser: End-to-end OCR-free Information Extraction from Visually Rich Documents	Apr 24, 2023	Optical Character RecognitionOptical Character Recognition (OCR)	CodeCode Available	1
Detection of Furigana Text in Images	Jul 8, 2022	object-detectionObject Detection	CodeCode Available	1
A Multiplexed Network for End-to-End, Multilingual OCR	Mar 29, 2021	Optical Character Recognition (OCR)Text Detection	CodeCode Available	1
Digitizing Historical Balance Sheet Data: A Practitioner's Guide	Mar 31, 2022	Optical Character RecognitionOptical Character Recognition (OCR)	CodeCode Available	1
DSG: An End-to-End Document Structure Generator	Oct 13, 2023	Optical Character Recognition (OCR)	CodeCode Available	1
DE-GAN: A Conditional Generative Adversarial Network for Document Enhancement	Oct 17, 2020	BinarizationDeblurring	CodeCode Available	1
A Two-Step Approach for Automatic OCR Post-Correction	Dec 1, 2020	Optical Character RecognitionOptical Character Recognition (OCR)	CodeCode Available	1
Efficient OCR for Building a Diverse Digital History	Apr 5, 2023	DiversityImage Retrieval	CodeCode Available	1
DiT: Self-supervised Pre-training for Document Image Transformer	Mar 4, 2022	Document AIdocument-image-classification	CodeCode Available	1

Show:10 25 50

← PrevPage 3 of 25Next →

All datasets Benchmarking Chinese Text Recognition: Datasets, Baselines, and an Empirical Study VideoDB's OCR Benchmark Public Collection FSNS - Test I2L-140K SUT im2latex-100k

Benchmark Results

#	Model	Metric	Claimed	Verified	Status
1	DTrOCR	Accuracy (%)	89.6	—	Unverified
2	DTrOCR 105M	Accuracy (%)	89.6	—	Unverified
3	MaskOCR-L	Accuracy (%)	82.6	—	Unverified
4	TransOCR	Accuracy (%)	72.8	—	Unverified
5	SRN	Accuracy (%)	65	—	Unverified
6	MORAN	Accuracy (%)	64.3	—	Unverified
7	SEED	Accuracy (%)	61.2	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	GPT-4o	Average Accuracy	76.22	—	Unverified
2	Gemini-1.5 Pro	Average Accuracy	76.13	—	Unverified
3	Claude-3 Sonnet	Average Accuracy	67.71	—	Unverified
4	RapidOCR	Average Accuracy	56.98	—	Unverified
5	EasyOCR	Average Accuracy	49.3	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	STREET	Sequence error	27.54	—	Unverified
2	SEE	Sequence error	22	—	Unverified
3	AttentionOCR_Inception-resnet-v2_Location	Sequence error	15.8	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	I2L-NOPOOL	BLEU	89.09	—	Unverified
2	I2L-STRIPS	BLEU	89	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	Tesseract	Character Error Rate (CER)	0.08	—	Unverified
2	EasyOCR	Character Error Rate (CER)	0.07	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	I2L-STRIPS	BLEU	88.86	—	Unverified