Optical Character Recognition (OCR)

Optical Character Recognition or Optical Character Reader (OCR) is the electronic or mechanical conversion of images of typed, handwritten or printed text into machine-encoded text, whether from a scanned document, a photo of a document, a scene-photo (for example the text on signs and billboards in a landscape photo, license plates in cars...) or from subtitle text superimposed on an image (for example: from a television broadcast)

Papers

Recently Added Most Hyped Most Active Needs Verification Most Verified

Showing 76–100 of 1209 papers

Title	Date	Tasks	Status	Hype
German Parliamentary Corpus (GerParCor)	Apr 21, 2022	Optical Character Recognition (OCR)	CodeCode Available	1
Generating Synthetic Handwritten Historical Documents With OCR Constrained GANs	Mar 15, 2021	Optical Character Recognition (OCR)Synthetic Data Generation	CodeCode Available	1
GenKIE: Robust Generative Multimodal Document Key Information Extraction	Oct 24, 2023	DecoderKey Information Extraction	CodeCode Available	1
Fused Text Recogniser and Deep Embeddings Improve Word Recognition and Retrieval	Jul 1, 2020	Optical Character Recognition (OCR)Retrieval	CodeCode Available	1
A Comprehensive Gold Standard and Benchmark for Comics Text Detection and Recognition	Dec 27, 2022	Optical Character RecognitionOptical Character Recognition (OCR)	CodeCode Available	1
FuseCap: Leveraging Large Language Models for Enriched Fused Image Captions	May 28, 2023	AttributeImage Captioning	CodeCode Available	1
Focus, Distinguish, and Prompt: Unleashing CLIP for Efficient and Flexible Scene Text Retrieval	Aug 1, 2024	AttributeOptical Character Recognition	CodeCode Available	1
ARB: A Comprehensive Arabic Multimodal Reasoning Benchmark	May 22, 2025	document understandingMultimodal Reasoning	CodeCode Available	1
From Text to Pixel: Advancing Long-Context Understanding in MLLMs	May 23, 2024	Language ModelingLanguage Modelling	CodeCode Available	1
Improving accuracy and speeding up Document Image Classification through parallel systems	Jun 16, 2020	Document Classificationdocument-image-classification	CodeCode Available	1
Exploring OCR Capabilities of GPT-4V(ision) : A Quantitative and In-depth Evaluation	Oct 25, 2023	Handwritten Text RecognitionKey Information Extraction	CodeCode Available	1
Efficient OCR for Building a Diverse Digital History	Apr 5, 2023	DiversityImage Retrieval	CodeCode Available	1
Enhancing License Plate Super-Resolution: A Layout-Aware and Character-Driven Approach	Aug 27, 2024	License Plate RecognitionOptical Character Recognition	CodeCode Available	1
FAWA: Fast Adversarial Watermark Attack on Optical Character Recognition (OCR) Systems	Dec 15, 2020	Optical Character RecognitionOptical Character Recognition (OCR)	CodeCode Available	1
DSG: An End-to-End Document Structure Generator	Oct 13, 2023	Optical Character Recognition (OCR)	CodeCode Available	1
EAST: An Efficient and Accurate Scene Text Detector	Apr 11, 2017	Curved Text DetectionOptical Character Recognition (OCR)	CodeCode Available	1
End-to-End Information Extraction by Character-Level Embedding and Multi-Stage Attentional U-Net	Jun 2, 2021	Optical Character Recognition (OCR)	CodeCode Available	1
Exploring Better Text Image Translation with Multimodal Codebook	May 27, 2023	Machine TranslationOptical Character Recognition	CodeCode Available	1
Exploring Cross-Image Pixel Contrast for Semantic Segmentation	Jan 28, 2021	Metric LearningOptical Character Recognition (OCR)	CodeCode Available	1
Easter2.0: Improving convolutional models for handwritten text recognition	May 30, 2022	Data AugmentationFew-Shot Learning	CodeCode Available	1
FigStep: Jailbreaking Large Vision-Language Models via Typographic Visual Prompts	Nov 9, 2023	Optical Character Recognition (OCR)Safety Alignment	CodeCode Available	1
DocScanner: Robust Document Image Rectification with Progressive Learning	Oct 28, 2021	Optical Character Recognition (OCR)	CodeCode Available	1
DocReal: Robust Document Dewarping of Real-Life Images via Attention-Enhanced Control Point Prediction	Dec 1, 2023	Optical Character Recognition (OCR)	CodeCode Available	1
DocTr: Document Image Transformer for Geometric Unwarping and Illumination Correction	Oct 25, 2021	Optical Character Recognition (OCR)	CodeCode Available	1
DocLayLLM: An Efficient Multi-modal Extension of Large Language Models for Text-rich Document Understanding	Jan 1, 2025	document understandingOptical Character Recognition (OCR)	CodeCode Available	1

Show:10 25 50

← PrevPage 4 of 49Next →

All datasets Benchmarking Chinese Text Recognition: Datasets, Baselines, and an Empirical Study VideoDB's OCR Benchmark Public Collection FSNS - Test I2L-140K SUT im2latex-100k

Benchmark Results

#	Model	Metric	Claimed	Verified	Status
1	DTrOCR	Accuracy (%)	89.6	—	Unverified
2	DTrOCR 105M	Accuracy (%)	89.6	—	Unverified
3	MaskOCR-L	Accuracy (%)	82.6	—	Unverified
4	TransOCR	Accuracy (%)	72.8	—	Unverified
5	SRN	Accuracy (%)	65	—	Unverified
6	MORAN	Accuracy (%)	64.3	—	Unverified
7	SEED	Accuracy (%)	61.2	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	GPT-4o	Average Accuracy	76.22	—	Unverified
2	Gemini-1.5 Pro	Average Accuracy	76.13	—	Unverified
3	Claude-3 Sonnet	Average Accuracy	67.71	—	Unverified
4	RapidOCR	Average Accuracy	56.98	—	Unverified
5	EasyOCR	Average Accuracy	49.3	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	STREET	Sequence error	27.54	—	Unverified
2	SEE	Sequence error	22	—	Unverified
3	AttentionOCR_Inception-resnet-v2_Location	Sequence error	15.8	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	I2L-NOPOOL	BLEU	89.09	—	Unverified
2	I2L-STRIPS	BLEU	89	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	Tesseract	Character Error Rate (CER)	0.08	—	Unverified
2	EasyOCR	Character Error Rate (CER)	0.07	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	I2L-STRIPS	BLEU	88.86	—	Unverified