Optical Character Recognition (OCR)

Optical Character Recognition or Optical Character Reader (OCR) is the electronic or mechanical conversion of images of typed, handwritten or printed text into machine-encoded text, whether from a scanned document, a photo of a document, a scene-photo (for example the text on signs and billboards in a landscape photo, license plates in cars...) or from subtitle text superimposed on an image (for example: from a television broadcast)

Papers

Recently Added Most Hyped Most Active Needs Verification Most Verified

Showing 151–175 of 1209 papers

Title	Date	Tasks	Status	Hype
DocReal: Robust Document Dewarping of Real-Life Images via Attention-Enhanced Control Point Prediction	Dec 1, 2023	Optical Character Recognition (OCR)	CodeCode Available	1
DocTr: Document Image Transformer for Geometric Unwarping and Illumination Correction	Oct 25, 2021	Optical Character Recognition (OCR)	CodeCode Available	1
Accurate, Data-Efficient, Unconstrained Text Recognition with Convolutional Neural Networks	Dec 31, 2018	Handwriting RecognitionLicense Plate Recognition	CodeCode Available	1
DocLayLLM: An Efficient Multi-modal Extension of Large Language Models for Text-rich Document Understanding	Jan 1, 2025	document understandingOptical Character Recognition (OCR)	CodeCode Available	1
DocLayLLM: An Efficient and Effective Multi-modal Extension of Large Language Models for Text-rich Document Understanding	Aug 27, 2024	document understandingOptical Character Recognition (OCR)	CodeCode Available	1
DocParser: End-to-end OCR-free Information Extraction from Visually Rich Documents	Apr 24, 2023	Optical Character RecognitionOptical Character Recognition (OCR)	CodeCode Available	1
Document Dewarping with Control Points	Mar 20, 2022	Optical Character Recognition (OCR)	CodeCode Available	1
Fused Text Recogniser and Deep Embeddings Improve Word Recognition and Retrieval	Jul 1, 2020	Optical Character Recognition (OCR)Retrieval	CodeCode Available	1
DiT: Self-supervised Pre-training for Document Image Transformer	Mar 4, 2022	Document AIdocument-image-classification	CodeCode Available	1
A Multiplexed Network for End-to-End, Multilingual OCR	Mar 29, 2021	Optical Character Recognition (OCR)Text Detection	CodeCode Available	1
Fully Unsupervised Diversity Denoising with Convolutional Variational Autoencoders	Jun 10, 2020	Cell SegmentationDenoising	CodeCode Available	1
Detection of Furigana Text in Images	Jul 8, 2022	object-detectionObject Detection	CodeCode Available	1
Digitizing Historical Balance Sheet Data: A Practitioner's Guide	Mar 31, 2022	Optical Character RecognitionOptical Character Recognition (OCR)	CodeCode Available	1
Graph Neural Networks and Representation Embedding for Table Extraction in PDF Documents	Aug 23, 2022	Optical Character Recognition (OCR)Table Extraction	CodeCode Available	1
DocFormerv2: Local Features for Document Understanding	Jun 2, 2023	Decoderdocument understanding	CodeCode Available	1
HAPI: A Large-scale Longitudinal Dataset of Commercial ML API Predictions	Sep 18, 2022	object-detectionObject Detection	CodeCode Available	1
Deep Relational Reasoning Graph Network for Arbitrary Shape Text Detection	Mar 17, 2020	graph constructionOptical Character Recognition (OCR)	CodeCode Available	1
Data Generation for Post-OCR correction of Cyrillic handwriting	Nov 27, 2023	Handwriting generationHandwritten Text Recognition	CodeCode Available	1
bbOCR: An Open-source Multi-domain OCR Pipeline for Bengali Documents	Aug 21, 2023	distortion correctionOptical Character Recognition	CodeCode Available	1
Implicit Feature Alignment: Learn to Convert Text Recognizer to Text Spotter	Jun 10, 2021	Optical Character RecognitionOptical Character Recognition (OCR)	CodeCode Available	1
Confidence-aware Non-repetitive Multimodal Transformers for TextCaps	Dec 7, 2020	Image CaptioningOptical Character Recognition	CodeCode Available	1
Iranis: A Large-scale Dataset of Farsi License Plate Characters	Jan 1, 2021	image-classificationImage Classification	CodeCode Available	1
Benchmarking Vision-Language Models on Optical Character Recognition in Dynamic Video Environments	Feb 10, 2025	BenchmarkingOptical Character Recognition	CodeCode Available	1
LAMBERT: Layout-Aware (Language) Modeling for information extraction	Feb 19, 2020	Key Information ExtractionLanguage Modeling	CodeCode Available	1
One Model is All You Need: ByT5-Sanskrit, a Unified Model for Sanskrit NLP Tasks	Sep 20, 2024	AllDependency Parsing	CodeCode Available	1

Show:10 25 50

← PrevPage 7 of 49Next →

All datasets Benchmarking Chinese Text Recognition: Datasets, Baselines, and an Empirical Study VideoDB's OCR Benchmark Public Collection FSNS - Test I2L-140K SUT im2latex-100k

Benchmark Results

#	Model	Metric	Claimed	Verified	Status
1	DTrOCR	Accuracy (%)	89.6	—	Unverified
2	DTrOCR 105M	Accuracy (%)	89.6	—	Unverified
3	MaskOCR-L	Accuracy (%)	82.6	—	Unverified
4	TransOCR	Accuracy (%)	72.8	—	Unverified
5	SRN	Accuracy (%)	65	—	Unverified
6	MORAN	Accuracy (%)	64.3	—	Unverified
7	SEED	Accuracy (%)	61.2	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	GPT-4o	Average Accuracy	76.22	—	Unverified
2	Gemini-1.5 Pro	Average Accuracy	76.13	—	Unverified
3	Claude-3 Sonnet	Average Accuracy	67.71	—	Unverified
4	RapidOCR	Average Accuracy	56.98	—	Unverified
5	EasyOCR	Average Accuracy	49.3	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	STREET	Sequence error	27.54	—	Unverified
2	SEE	Sequence error	22	—	Unverified
3	AttentionOCR_Inception-resnet-v2_Location	Sequence error	15.8	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	I2L-NOPOOL	BLEU	89.09	—	Unverified
2	I2L-STRIPS	BLEU	89	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	Tesseract	Character Error Rate (CER)	0.08	—	Unverified
2	EasyOCR	Character Error Rate (CER)	0.07	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	I2L-STRIPS	BLEU	88.86	—	Unverified