Optical Character Recognition (OCR)

Optical Character Recognition or Optical Character Reader (OCR) is the electronic or mechanical conversion of images of typed, handwritten or printed text into machine-encoded text, whether from a scanned document, a photo of a document, a scene-photo (for example the text on signs and billboards in a landscape photo, license plates in cars...) or from subtitle text superimposed on an image (for example: from a television broadcast)

Papers

Recently Added Most Hyped Most Active Needs Verification Most Verified

Showing 151–200 of 1209 papers

Title	Date	Tasks	Status	Hype
An Automatic Approach for Generating Rich, Linked Geo-Metadata from Historical Map Images	Dec 3, 2021	Optical Character RecognitionOptical Character Recognition (OCR)	CodeCode Available	1
End-to-End Information Extraction by Character-Level Embedding and Multi-Stage Attentional U-Net	Jun 2, 2021	Optical Character Recognition (OCR)	CodeCode Available	1
Accurate, Data-Efficient, Unconstrained Text Recognition with Convolutional Neural Networks	Dec 31, 2018	Handwriting RecognitionLicense Plate Recognition	CodeCode Available	1
Attack of the Tails: Yes, You Really Can Backdoor Federated Learning	Jul 9, 2020	FairnessFederated Learning	CodeCode Available	1
Enhancing License Plate Super-Resolution: A Layout-Aware and Character-Driven Approach	Aug 27, 2024	License Plate RecognitionOptical Character Recognition	CodeCode Available	1
Easter2.0: Improving convolutional models for handwritten text recognition	May 30, 2022	Data AugmentationFew-Shot Learning	CodeCode Available	1
Generating Synthetic Handwritten Historical Documents With OCR Constrained GANs	Mar 15, 2021	Optical Character Recognition (OCR)Synthetic Data Generation	CodeCode Available	1
GenKIE: Robust Generative Multimodal Document Key Information Extraction	Oct 24, 2023	DecoderKey Information Extraction	CodeCode Available	1
AT-ST: Self-Training Adaptation Strategy for OCR in Domains with Limited Transcriptions	Apr 27, 2021	Optical Character Recognition (OCR)	CodeCode Available	1
Efficient OCR for Building a Diverse Digital History	Apr 5, 2023	DiversityImage Retrieval	CodeCode Available	1
Exploring Better Text Image Translation with Multimodal Codebook	May 27, 2023	Machine TranslationOptical Character Recognition	CodeCode Available	1
Awaker2.5-VL: Stably Scaling MLLMs with Parameter-Efficient Mixture of Experts	Nov 16, 2024	Mixture-of-ExpertsOptical Character Recognition (OCR)	CodeCode Available	1
FlowLearn: Evaluating Large Vision-Language Models on Flowchart Understanding	Jul 6, 2024	Optical Character Recognition (OCR)Visual Question Answering (VQA)	CodeCode Available	1
hmBERT: Historical Multilingual Language Models for Named Entity Recognition	May 31, 2022	Language ModelingLanguage Modelling	CodeCode Available	1
Document Dewarping with Control Points	Mar 20, 2022	Optical Character Recognition (OCR)	CodeCode Available	1
DocScanner: Robust Document Image Rectification with Progressive Learning	Oct 28, 2021	Optical Character Recognition (OCR)	CodeCode Available	1
Improving accuracy and speeding up Document Image Classification through parallel systems	Jun 16, 2020	Document Classificationdocument-image-classification	CodeCode Available	1
Indian Licence Plate Dataset in the wild	Nov 11, 2021	object-detectionObject Detection	CodeCode Available	1
DocReal: Robust Document Dewarping of Real-Life Images via Attention-Enhanced Control Point Prediction	Dec 1, 2023	Optical Character Recognition (OCR)	CodeCode Available	1
Iranis: A Large-scale Dataset of Farsi License Plate Characters	Jan 1, 2021	image-classificationImage Classification	CodeCode Available	1
Large Scale Font Independent Urdu Text Recognition System	May 14, 2020	Incremental LearningOptical Character Recognition (OCR)	CodeCode Available	1
LaTr: Layout-Aware Transformer for Scene-Text VQA	Dec 23, 2021	Optical Character Recognition (OCR)Question Answering	CodeCode Available	1
DocTr: Document Image Transformer for Geometric Unwarping and Illumination Correction	Oct 25, 2021	Optical Character Recognition (OCR)	CodeCode Available	1
Let's Enhance: A Deep Learning Approach to Extreme Deblurring of Text Images	Nov 18, 2022	DeblurringImage Deblurring	CodeCode Available	1
DSG: An End-to-End Document Structure Generator	Oct 13, 2023	Optical Character Recognition (OCR)	CodeCode Available	1
DocLayLLM: An Efficient and Effective Multi-modal Extension of Large Language Models for Text-rich Document Understanding	Aug 27, 2024	document understandingOptical Character Recognition (OCR)	CodeCode Available	1
A Multiplexed Network for End-to-End, Multilingual OCR	Mar 29, 2021	Optical Character Recognition (OCR)Text Detection	CodeCode Available	1
Marior: Margin Removal and Iterative Content Rectification for Document Dewarping in the Wild	Jul 23, 2022	Optical Character Recognition (OCR)	CodeCode Available	1
DocLayLLM: An Efficient Multi-modal Extension of Large Language Models for Text-rich Document Understanding	Jan 1, 2025	document understandingOptical Character Recognition (OCR)	CodeCode Available	1
Fully Unsupervised Diversity Denoising with Convolutional Variational Autoencoders	Jun 10, 2020	Cell SegmentationDenoising	CodeCode Available	1
DocFormerv2: Local Features for Document Understanding	Jun 2, 2023	Decoderdocument understanding	CodeCode Available	1
DocParser: End-to-end OCR-free Information Extraction from Visually Rich Documents	Apr 24, 2023	Optical Character RecognitionOptical Character Recognition (OCR)	CodeCode Available	1
A Large Multi-Target Dataset of Common Bengali Handwritten Graphemes	Oct 1, 2020	Multi-Label ClassificationOptical Character Recognition	CodeCode Available	1
Multimodal LLMs for OCR, OCR Post-Correction, and Named Entity Recognition in Historical Documents	Apr 1, 2025	named-entity-recognitionNamed Entity Recognition	CodeCode Available	1
DE-GAN: A Conditional Generative Adversarial Network for Document Enhancement	Oct 17, 2020	BinarizationDeblurring	CodeCode Available	1
Detection of Furigana Text in Images	Jul 8, 2022	object-detectionObject Detection	CodeCode Available	1
Deep Relational Reasoning Graph Network for Arbitrary Shape Text Detection	Mar 17, 2020	graph constructionOptical Character Recognition (OCR)	CodeCode Available	1
NEVIS'22: A Stream of 100 Tasks Sampled from 30 Years of Computer Vision Research	Nov 15, 2022	Continual LearningDiversity	CodeCode Available	1
One Model is All You Need: ByT5-Sanskrit, a Unified Model for Sanskrit NLP Tasks	Sep 20, 2024	AllDependency Parsing	CodeCode Available	1
Digitizing Historical Balance Sheet Data: A Practitioner's Guide	Mar 31, 2022	Optical Character RecognitionOptical Character Recognition (OCR)	CodeCode Available	1
Confidence-aware Non-repetitive Multimodal Transformers for TextCaps	Dec 7, 2020	Image CaptioningOptical Character Recognition	CodeCode Available	1
Combining Morphological and Histogram based Text Line Segmentation in the OCR Context	Mar 16, 2021	Optical Character RecognitionOptical Character Recognition (OCR)	CodeCode Available	1
CORU: Comprehensive Post-OCR Parsing and Receipt Understanding Dataset	Jun 6, 2024	object-detectionObject Detection	CodeCode Available	1
ChartReader: A Unified Framework for Chart Derendering and Comprehension without Heuristic Rules	Apr 5, 2023	Chart UnderstandingDerendering	CodeCode Available	1
PEaCE: A Chemistry-Oriented Dataset for Optical Character Recognition on Scientific Documents	Mar 23, 2024	ArticlesOptical Character Recognition	CodeCode Available	1
BROS: A Pre-trained Language Model Focusing on Text and Layout for Better Key Information Extraction from Documents	Aug 10, 2021	Key Information ExtractionLanguage Modeling	CodeCode Available	1
PICK: Processing Key Information Extraction from Documents using Improved Graph Learning-Convolutional Networks	Apr 16, 2020	Graph LearningKey Information Extraction	CodeCode Available	1
A Deep Learning Approach to Geographical Candidate Selection through Toponym Matching	Sep 17, 2020	Deep LearningEntity Resolution	CodeCode Available	1
CMULAB: An Open-Source Framework for Training and Deployment of Natural Language Processing Models	Apr 3, 2024	Optical Character Recognition (OCR)speech-recognition	CodeCode Available	1
Data Generation for Post-OCR correction of Cyrillic handwriting	Nov 27, 2023	Handwriting generationHandwritten Text Recognition	CodeCode Available	1

Show:10 25 50

← PrevPage 4 of 25Next →

All datasets Benchmarking Chinese Text Recognition: Datasets, Baselines, and an Empirical Study VideoDB's OCR Benchmark Public Collection FSNS - Test I2L-140K SUT im2latex-100k

Benchmark Results

#	Model	Metric	Claimed	Verified	Status
1	DTrOCR	Accuracy (%)	89.6	—	Unverified
2	DTrOCR 105M	Accuracy (%)	89.6	—	Unverified
3	MaskOCR-L	Accuracy (%)	82.6	—	Unverified
4	TransOCR	Accuracy (%)	72.8	—	Unverified
5	SRN	Accuracy (%)	65	—	Unverified
6	MORAN	Accuracy (%)	64.3	—	Unverified
7	SEED	Accuracy (%)	61.2	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	GPT-4o	Average Accuracy	76.22	—	Unverified
2	Gemini-1.5 Pro	Average Accuracy	76.13	—	Unverified
3	Claude-3 Sonnet	Average Accuracy	67.71	—	Unverified
4	RapidOCR	Average Accuracy	56.98	—	Unverified
5	EasyOCR	Average Accuracy	49.3	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	STREET	Sequence error	27.54	—	Unverified
2	SEE	Sequence error	22	—	Unverified
3	AttentionOCR_Inception-resnet-v2_Location	Sequence error	15.8	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	I2L-NOPOOL	BLEU	89.09	—	Unverified
2	I2L-STRIPS	BLEU	89	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	Tesseract	Character Error Rate (CER)	0.08	—	Unverified
2	EasyOCR	Character Error Rate (CER)	0.07	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	I2L-STRIPS	BLEU	88.86	—	Unverified