Optical Character Recognition (OCR)

Optical Character Recognition or Optical Character Reader (OCR) is the electronic or mechanical conversion of images of typed, handwritten or printed text into machine-encoded text, whether from a scanned document, a photo of a document, a scene-photo (for example the text on signs and billboards in a landscape photo, license plates in cars...) or from subtitle text superimposed on an image (for example: from a television broadcast)

Papers

Recently Added Most Hyped Most Active Needs Verification Most Verified

Showing 151–200 of 1209 papers

Title	Date	Tasks	Status	Hype
Document Dewarping with Control Points	Mar 20, 2022	Optical Character Recognition (OCR)	CodeCode Available	1
XYLayoutLM: Towards Layout-Aware Multimodal Networks For Visually-Rich Document Understanding	Mar 14, 2022	document understandingOptical Character Recognition (OCR)	CodeCode Available	1
DiT: Self-supervised Pre-training for Document Image Transformer	Mar 4, 2022	Document AIdocument-image-classification	CodeCode Available	1
TableFormer: Table Structure Understanding with Transformers	Mar 2, 2022	Decoderobject-detection	CodeCode Available	1
OCR-IDL: OCR Annotations for Industry Document Library Dataset	Feb 25, 2022	Optical Character Recognition (OCR)	CodeCode Available	1
On the Cross-dataset Generalization in License Plate Recognition	Jan 2, 2022	Data AugmentationLicense Plate Detection	CodeCode Available	1
LaTr: Layout-Aware Transformer for Scene-Text VQA	Dec 23, 2021	Optical Character Recognition (OCR)Question Answering	CodeCode Available	1
An Automatic Approach for Generating Rich, Linked Geo-Metadata from Historical Map Images	Dec 3, 2021	Optical Character RecognitionOptical Character Recognition (OCR)	CodeCode Available	1
Indian Licence Plate Dataset in the wild	Nov 11, 2021	object-detectionObject Detection	CodeCode Available	1
Lexically Aware Semi-Supervised Learning for OCR Post-Correction	Nov 4, 2021	Language ModellingOptical Character Recognition	CodeCode Available	1
DocScanner: Robust Document Image Rectification with Progressive Learning	Oct 28, 2021	Optical Character Recognition (OCR)	CodeCode Available	1
DocTr: Document Image Transformer for Geometric Unwarping and Illumination Correction	Oct 25, 2021	Optical Character Recognition (OCR)	CodeCode Available	1
WenetSpeech: A 10000+ Hours Multi-domain Mandarin Corpus for Speech Recognition	Oct 7, 2021	Label Error DetectionOptical Character Recognition	CodeCode Available	1
Rerunning OCR: A Machine Learning Approach to Quality Assessment and Enhancement Prediction	Oct 4, 2021	BIG-bench Machine LearningDecision Making	CodeCode Available	1
TrOCR: Transformer-based Optical Character Recognition with Pre-trained Models	Sep 21, 2021	Handwritten Text RecognitionLanguage Modeling	CodeCode Available	1
Post-OCR Document Correction with large Ensembles of Character Sequence-to-Sequence Models	Sep 13, 2021	Optical Character RecognitionOptical Character Recognition (OCR)	CodeCode Available	1
BROS: A Pre-trained Language Model Focusing on Text and Layout for Better Key Information Extraction from Documents	Aug 10, 2021	Key Information ExtractionLanguage Modeling	CodeCode Available	1
Lights, Camera, Action! A Framework to Improve NLP Accuracy over OCR documents	Aug 6, 2021	named-entity-recognitionNamed Entity Recognition	CodeCode Available	1
Robust Learning for Text Classification with Multi-source Noise Simulation and Hard Example Mining	Jul 15, 2021	Optical Character RecognitionOptical Character Recognition (OCR)	CodeCode Available	1
Implicit Feature Alignment: Learn to Convert Text Recognizer to Text Spotter	Jun 10, 2021	Optical Character RecognitionOptical Character Recognition (OCR)	CodeCode Available	1
End-to-End Information Extraction by Character-Level Embedding and Multi-Stage Attentional U-Net	Jun 2, 2021	Optical Character Recognition (OCR)	CodeCode Available	1
Multi-Type-TD-TSR -- Extracting Tables from Document Images using a Multi-stage Pipeline for Table Detection and Table Structure Recognition: from OCR to Structured Table Representations	May 23, 2021	Optical Character RecognitionOptical Character Recognition (OCR)	CodeCode Available	1
Unknown-box Approximation to Improve Optical Character Recognition Performance	May 17, 2021	Optical Character RecognitionOptical Character Recognition (OCR)	CodeCode Available	1
AT-ST: Self-Training Adaptation Strategy for OCR in Domains with Limited Transcriptions	Apr 27, 2021	Optical Character Recognition (OCR)	CodeCode Available	1
Operationalizing a National Digital Library: The Case for a Norwegian Transformer Model	Apr 19, 2021	Language ModelingLanguage Modelling	CodeCode Available	1
Samanantar: The Largest Publicly Available Parallel Corpora Collection for 11 Indic Languages	Apr 12, 2021	Machine TranslationMultilingual NLP	CodeCode Available	1
Video-aided Unsupervised Grammar Induction	Apr 9, 2021	Optical Character Recognition (OCR)	CodeCode Available	1
A Multiplexed Network for End-to-End, Multilingual OCR	Mar 29, 2021	Optical Character Recognition (OCR)Text Detection	CodeCode Available	1
Combining Morphological and Histogram based Text Line Segmentation in the OCR Context	Mar 16, 2021	Optical Character RecognitionOptical Character Recognition (OCR)	CodeCode Available	1
Generating Synthetic Handwritten Historical Documents With OCR Constrained GANs	Mar 15, 2021	Optical Character Recognition (OCR)Synthetic Data Generation	CodeCode Available	1
Neural OCR Post-Hoc Correction of Historical Corpora	Feb 1, 2021	Optical Character RecognitionOptical Character Recognition (OCR)	CodeCode Available	1
Exploring Cross-Image Pixel Contrast for Semantic Segmentation	Jan 28, 2021	Metric LearningOptical Character Recognition (OCR)	CodeCode Available	1
Iranis: A Large-scale Dataset of Farsi License Plate Characters	Jan 1, 2021	image-classificationImage Classification	CodeCode Available	1
FAWA: Fast Adversarial Watermark Attack on Optical Character Recognition (OCR) Systems	Dec 15, 2020	Optical Character RecognitionOptical Character Recognition (OCR)	CodeCode Available	1
TAP: Text-Aware Pre-training for Text-VQA and Text-Caption	Dec 8, 2020	Caption GenerationLanguage Modeling	CodeCode Available	1
Confidence-aware Non-repetitive Multimodal Transformers for TextCaps	Dec 7, 2020	Image CaptioningOptical Character Recognition	CodeCode Available	1
A Two-Step Approach for Automatic OCR Post-Correction	Dec 1, 2020	Optical Character RecognitionOptical Character Recognition (OCR)	CodeCode Available	1
Intrinsic Decomposition of Document Images In-the-Wild	Nov 29, 2020	Document Shadow RemovalIntrinsic Image Decomposition	CodeCode Available	1
OCR Post Correction for Endangered Language Texts	Nov 10, 2020	Optical Character Recognition (OCR)	CodeCode Available	1
An Unsupervised method for OCR Post-Correction and Spelling Normalisation for Finnish	Nov 6, 2020	Machine TranslationNMT	CodeCode Available	1
RUArt: A Novel Text-Centered Solution for Text-Based Visual Question Answering	Oct 24, 2020	Optical Character RecognitionOptical Character Recognition (OCR)	CodeCode Available	1
TLGAN: document Text Localization using Generative Adversarial Nets	Oct 22, 2020	Optical Character RecognitionOptical Character Recognition (OCR)	CodeCode Available	1
DE-GAN: A Conditional Generative Adversarial Network for Document Enhancement	Oct 17, 2020	BinarizationDeblurring	CodeCode Available	1
Tokenization Repair in the Presence of Spelling Errors	Oct 15, 2020	Optical Character Recognition (OCR)Spelling Correction	CodeCode Available	1
Table Structure Recognition using Top-Down and Bottom-Up Cues	Oct 9, 2020	Cell DetectionOptical Character Recognition	CodeCode Available	1
A Large Multi-Target Dataset of Common Bengali Handwritten Graphemes	Oct 1, 2020	Multi-Label ClassificationOptical Character Recognition	CodeCode Available	1
A Deep Learning Approach to Geographical Candidate Selection through Toponym Matching	Sep 17, 2020	Deep LearningEntity Resolution	CodeCode Available	1
Adapting OCR with limited supervision	Jul 27, 2020	Optical Character Recognition (OCR)	CodeCode Available	1
Spatially Aware Multimodal Transformers for TextVQA	Jul 23, 2020	Optical Character Recognition (OCR)Spatial Reasoning	CodeCode Available	1
Attack of the Tails: Yes, You Really Can Backdoor Federated Learning	Jul 9, 2020	FairnessFederated Learning	CodeCode Available	1

Show:10 25 50

← PrevPage 4 of 25Next →

All datasets Benchmarking Chinese Text Recognition: Datasets, Baselines, and an Empirical Study VideoDB's OCR Benchmark Public Collection FSNS - Test I2L-140K SUT im2latex-100k

Benchmark Results

#	Model	Metric	Claimed	Verified	Status
1	DTrOCR	Accuracy (%)	89.6	—	Unverified
2	DTrOCR 105M	Accuracy (%)	89.6	—	Unverified
3	MaskOCR-L	Accuracy (%)	82.6	—	Unverified
4	TransOCR	Accuracy (%)	72.8	—	Unverified
5	SRN	Accuracy (%)	65	—	Unverified
6	MORAN	Accuracy (%)	64.3	—	Unverified
7	SEED	Accuracy (%)	61.2	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	GPT-4o	Average Accuracy	76.22	—	Unverified
2	Gemini-1.5 Pro	Average Accuracy	76.13	—	Unverified
3	Claude-3 Sonnet	Average Accuracy	67.71	—	Unverified
4	RapidOCR	Average Accuracy	56.98	—	Unverified
5	EasyOCR	Average Accuracy	49.3	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	STREET	Sequence error	27.54	—	Unverified
2	SEE	Sequence error	22	—	Unverified
3	AttentionOCR_Inception-resnet-v2_Location	Sequence error	15.8	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	I2L-NOPOOL	BLEU	89.09	—	Unverified
2	I2L-STRIPS	BLEU	89	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	Tesseract	Character Error Rate (CER)	0.08	—	Unverified
2	EasyOCR	Character Error Rate (CER)	0.07	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	I2L-STRIPS	BLEU	88.86	—	Unverified