Optical Character Recognition (OCR)

Optical Character Recognition or Optical Character Reader (OCR) is the electronic or mechanical conversion of images of typed, handwritten or printed text into machine-encoded text, whether from a scanned document, a photo of a document, a scene-photo (for example the text on signs and billboards in a landscape photo, license plates in cars...) or from subtitle text superimposed on an image (for example: from a television broadcast)

Papers

Recently Added Most Hyped Most Active Needs Verification Most Verified

Showing 101–150 of 1209 papers

Title	Date	Tasks	Status	Hype
Privacy-Aware Document Visual Question Answering	Dec 15, 2023	document understandingFederated Learning	CodeCode Available	1
DocReal: Robust Document Dewarping of Real-Life Images via Attention-Enhanced Control Point Prediction	Dec 1, 2023	Optical Character Recognition (OCR)	CodeCode Available	1
Data Generation for Post-OCR correction of Cyrillic handwriting	Nov 27, 2023	Handwriting generationHandwritten Text Recognition	CodeCode Available	1
FigStep: Jailbreaking Large Vision-Language Models via Typographic Visual Prompts	Nov 9, 2023	Optical Character Recognition (OCR)Safety Alignment	CodeCode Available	1
Exploring OCR Capabilities of GPT-4V(ision) : A Quantitative and In-depth Evaluation	Oct 25, 2023	Handwritten Text RecognitionKey Information Extraction	CodeCode Available	1
GenKIE: Robust Generative Multimodal Document Key Information Extraction	Oct 24, 2023	DecoderKey Information Extraction	CodeCode Available	1
DSG: An End-to-End Document Structure Generator	Oct 13, 2023	Optical Character Recognition (OCR)	CodeCode Available	1
UReader: Universal OCR-free Visually-situated Language Understanding with Multimodal Large Language Model	Oct 8, 2023	DecoderLanguage Modeling	CodeCode Available	1
Persis: A Persian Font Recognition Pipeline Using Convolutional Neural Networks	Oct 8, 2023	BinarizationCPU	CodeCode Available	1
Symmetrical Linguistic Feature Distillation with CLIP for Scene Text Recognition	Oct 8, 2023	Image to textOptical Character Recognition (OCR)	CodeCode Available	1
bbOCR: An Open-source Multi-domain OCR Pipeline for Bengali Documents	Aug 21, 2023	distortion correctionOptical Character Recognition	CodeCode Available	1
OmniDataComposer: A Unified Data Structure for Multimodal Data Fusion and Infinite Data Generation	Aug 8, 2023	Automatic Speech RecognitionAutomatic Speech Recognition (ASR)	CodeCode Available	1
Universal Defensive Underpainting Patch: Making Your Text Invisible to Optical Character Recognition	Aug 4, 2023	Optical Character RecognitionOptical Character Recognition (OCR)	CodeCode Available	1
Modular Multimodal Machine Learning for Extraction of Theorems and Proofs in Long Scientific Documents (Extended Version)	Jul 18, 2023	ArticlesDocument AI	CodeCode Available	1
UTRNet: High-Resolution Urdu Text Recognition In Printed Documents	Jun 27, 2023	Line DetectionOptical Character Recognition (OCR)	CodeCode Available	1
GenPlot: Increasing the Scale and Diversity of Chart Derendering Data	Jun 20, 2023	DerenderingDiversity	CodeCode Available	1
TransDocAnalyser: A Framework for Offline Semi-structured Handwritten Document Analysis in the Legal Domain	Jun 3, 2023	BenchmarkingDecoder	CodeCode Available	1
DocFormerv2: Local Features for Document Understanding	Jun 2, 2023	Decoderdocument understanding	CodeCode Available	1
Layout and Task Aware Instruction Prompt for Zero-shot Document Image Question Answering	Jun 1, 2023	Optical Character Recognition (OCR)Question Answering	CodeCode Available	1
FuseCap: Leveraging Large Language Models for Enriched Fused Image Captions	May 28, 2023	AttributeImage Captioning	CodeCode Available	1
Exploring Better Text Image Translation with Multimodal Codebook	May 27, 2023	Machine TranslationOptical Character Recognition	CodeCode Available	1
Super-Resolution of License Plate Images Using Attention Modules and Sub-Pixel Convolution Layers	May 27, 2023	Image Super-ResolutionLicense Plate Recognition	CodeCode Available	1
MRN: Multiplexed Routing Network for Incremental Multilingual Text Recognition	May 24, 2023	Continual LearningIncremental Learning	CodeCode Available	1
XTREME-UP: A User-Centric Scarce-Data Benchmark for Under-Represented Languages	May 19, 2023	In-Context LearningMultilingual NLP	CodeCode Available	1
Visual Information Extraction in the Wild: Practical Dataset and End-to-end Solution	May 12, 2023	Contrastive LearningOptical Character Recognition (OCR)	CodeCode Available	1
TPS++: Attention-Enhanced Thin-Plate Spline for Scene Text Recognition	May 9, 2023	Optical Character Recognition (OCR)Scene Text Recognition	CodeCode Available	1
DocParser: End-to-end OCR-free Information Extraction from Visually Rich Documents	Apr 24, 2023	Optical Character RecognitionOptical Character Recognition (OCR)	CodeCode Available	1
TagGPT: Large Language Models are Zero-shot Multimodal Taggers	Apr 6, 2023	Optical Character Recognition (OCR)Prompt Engineering	CodeCode Available	1
Efficient OCR for Building a Diverse Digital History	Apr 5, 2023	DiversityImage Retrieval	CodeCode Available	1
ChartReader: A Unified Framework for Chart Derendering and Comprehension without Heuristic Rules	Apr 5, 2023	Chart UnderstandingDerendering	CodeCode Available	1
Meta-Album: Multi-domain Meta-Dataset for Few-Shot Image Classification	Feb 16, 2023	Few-Shot Image ClassificationFew-Shot Learning	CodeCode Available	1
A Comprehensive Gold Standard and Benchmark for Comics Text Detection and Recognition	Dec 27, 2022	Optical Character RecognitionOptical Character Recognition (OCR)	CodeCode Available	1
SoftCTC -- Semi-Supervised Learning for Text Recognition using Soft Pseudo-Labels	Dec 5, 2022	Automatic Speech RecognitionAutomatic Speech Recognition (ASR)	CodeCode Available	1
Let's Enhance: A Deep Learning Approach to Extreme Deblurring of Text Images	Nov 18, 2022	DeblurringImage Deblurring	CodeCode Available	1
A Benchmark and Dataset for Post-OCR text correction in Sanskrit	Nov 15, 2022	AstronomyOptical Character Recognition (OCR)	CodeCode Available	1
NEVIS'22: A Stream of 100 Tasks Sampled from 30 Years of Computer Vision Research	Nov 15, 2022	Continual LearningDiversity	CodeCode Available	1
On Web-based Visual Corpus Construction for Visual Document Understanding	Nov 7, 2022	document understandingOptical Character Recognition (OCR)	CodeCode Available	1
Unsupervised Audio-Visual Lecture Segmentation	Oct 29, 2022	NavigateOptical Character Recognition (OCR)	CodeCode Available	1
MCSCSet: A Specialist-annotated Dataset for Medical-domain Chinese Spelling Correction	Oct 21, 2022	Optical Character RecognitionOptical Character Recognition (OCR)	CodeCode Available	1
OCR-VQGAN: Taming Text-within-Image Generation	Oct 19, 2022	ArticlesDecoder	CodeCode Available	1
Task Grouping for Multilingual Text Recognition	Oct 13, 2022	Optical Character Recognition (OCR)	CodeCode Available	1
HAPI: A Large-scale Longitudinal Dataset of Commercial ML API Predictions	Sep 18, 2022	object-detectionObject Detection	CodeCode Available	1
Graph Neural Networks and Representation Embedding for Table Extraction in PDF Documents	Aug 23, 2022	Optical Character Recognition (OCR)Table Extraction	CodeCode Available	1
Marior: Margin Removal and Iterative Content Rectification for Document Dewarping in the Wild	Jul 23, 2022	Optical Character Recognition (OCR)	CodeCode Available	1
You Actually Look Twice At it (YALTAi): using an object detection approach instead of region segmentation within the Kraken engine	Jul 19, 2022	Classificationobject-detection	CodeCode Available	1
Detection of Furigana Text in Images	Jul 8, 2022	object-detectionObject Detection	CodeCode Available	1
hmBERT: Historical Multilingual Language Models for Named Entity Recognition	May 31, 2022	Language ModelingLanguage Modelling	CodeCode Available	1
Easter2.0: Improving convolutional models for handwritten text recognition	May 30, 2022	Data AugmentationFew-Shot Learning	CodeCode Available	1
German Parliamentary Corpus (GerParCor)	Apr 21, 2022	Optical Character Recognition (OCR)	CodeCode Available	1
Digitizing Historical Balance Sheet Data: A Practitioner's Guide	Mar 31, 2022	Optical Character RecognitionOptical Character Recognition (OCR)	CodeCode Available	1

Show:10 25 50

← PrevPage 3 of 25Next →

All datasets Benchmarking Chinese Text Recognition: Datasets, Baselines, and an Empirical Study VideoDB's OCR Benchmark Public Collection FSNS - Test I2L-140K SUT im2latex-100k

Benchmark Results

#	Model	Metric	Claimed	Verified	Status
1	DTrOCR	Accuracy (%)	89.6	—	Unverified
2	DTrOCR 105M	Accuracy (%)	89.6	—	Unverified
3	MaskOCR-L	Accuracy (%)	82.6	—	Unverified
4	TransOCR	Accuracy (%)	72.8	—	Unverified
5	SRN	Accuracy (%)	65	—	Unverified
6	MORAN	Accuracy (%)	64.3	—	Unverified
7	SEED	Accuracy (%)	61.2	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	GPT-4o	Average Accuracy	76.22	—	Unverified
2	Gemini-1.5 Pro	Average Accuracy	76.13	—	Unverified
3	Claude-3 Sonnet	Average Accuracy	67.71	—	Unverified
4	RapidOCR	Average Accuracy	56.98	—	Unverified
5	EasyOCR	Average Accuracy	49.3	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	STREET	Sequence error	27.54	—	Unverified
2	SEE	Sequence error	22	—	Unverified
3	AttentionOCR_Inception-resnet-v2_Location	Sequence error	15.8	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	I2L-NOPOOL	BLEU	89.09	—	Unverified
2	I2L-STRIPS	BLEU	89	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	Tesseract	Character Error Rate (CER)	0.08	—	Unverified
2	EasyOCR	Character Error Rate (CER)	0.07	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	I2L-STRIPS	BLEU	88.86	—	Unverified