Optical Character Recognition (OCR)

Optical Character Recognition or Optical Character Reader (OCR) is the electronic or mechanical conversion of images of typed, handwritten or printed text into machine-encoded text, whether from a scanned document, a photo of a document, a scene-photo (for example the text on signs and billboards in a landscape photo, license plates in cars...) or from subtitle text superimposed on an image (for example: from a television broadcast)

Papers

Recently Added Most Hyped Most Active Needs Verification Most Verified

Showing 451–500 of 1209 papers

Title	Date	Tasks	Status	Hype
DocFormerv2: Local Features for Document Understanding	Jun 2, 2023	Decoderdocument understanding	CodeCode Available	1
Layout and Task Aware Instruction Prompt for Zero-shot Document Image Question Answering	Jun 1, 2023	Optical Character Recognition (OCR)Question Answering	CodeCode Available	1
Improving Handwritten OCR with Training Samples Generated by Glyph Conditional Denoising Diffusion Probabilistic Model	May 31, 2023	DenoisingOptical Character Recognition (OCR)	—Unverified	0
A template-independent approach for information extraction in real estate documents	May 30, 2023	Information RetrievalNatural Language Understanding	CodeCode Available	0
DuoSearch: A Novel Search Engine for Bulgarian Historical Documents	May 30, 2023	Optical Character RecognitionOptical Character Recognition (OCR)	CodeCode Available	0
GlyphControl: Glyph Conditional Control for Visual Text Generation	May 29, 2023	Optical Character Recognition (OCR)Text Generation	CodeCode Available	2
FuseCap: Leveraging Large Language Models for Enriched Fused Image Captions	May 28, 2023	AttributeImage Captioning	CodeCode Available	1
Exploring Better Text Image Translation with Multimodal Codebook	May 27, 2023	Machine TranslationOptical Character Recognition	CodeCode Available	1
Super-Resolution of License Plate Images Using Attention Modules and Sub-Pixel Convolution Layers	May 27, 2023	Image Super-ResolutionLicense Plate Recognition	CodeCode Available	1
People and Places of Historical Europe: Bootstrapping Annotation Pipeline and a New Corpus of Named Entities in Late Medieval Texts	May 26, 2023	Information Retrievalnamed-entity-recognition	—Unverified	0
MRN: Multiplexed Routing Network for Incremental Multilingual Text Recognition	May 24, 2023	Continual LearningIncremental Learning	CodeCode Available	1
Quantifying Character Similarity with Vision Transformers	May 24, 2023	Optical Character Recognition (OCR)	CodeCode Available	0
DUBLIN -- Document Understanding By Language-Image Network	May 23, 2023	Document Classificationdocument understanding	—Unverified	0
Measuring Intersectional Biases in Historical Documents	May 21, 2023	Optical Character RecognitionOptical Character Recognition (OCR)	CodeCode Available	0
XTREME-UP: A User-Centric Scarce-Data Benchmark for Under-Represented Languages	May 19, 2023	In-Context LearningMultilingual NLP	CodeCode Available	1
TextDiffuser: Diffusion Models as Text Painters	May 18, 2023	Optical Character Recognition (OCR)	—Unverified	0
Sequence-to-Sequence Pre-training with Unified Modality Masking for Visual Document Understanding	May 16, 2023	Decoderdocument understanding	—Unverified	0
Mobile User Interface Element Detection Via Adaptively Prompt Tuning	May 16, 2023	object-detectionObject Detection	CodeCode Available	0
OCRBench: On the Hidden Mystery of OCR in Large Multimodal Models	May 13, 2023	Key Information ExtractionNutrition	CodeCode Available	2
Visual Information Extraction in the Wild: Practical Dataset and End-to-end Solution	May 12, 2023	Contrastive LearningOptical Character Recognition (OCR)	CodeCode Available	1
Combining OCR Models for Reading Early Modern Printed Books	May 11, 2023	Font RecognitionOptical Character Recognition (OCR)	CodeCode Available	0
TPS++: Attention-Enhanced Thin-Plate Spline for Scene Text Recognition	May 9, 2023	Optical Character Recognition (OCR)Scene Text Recognition	CodeCode Available	1
E2TIMT: Efficient and Effective Modal Adapter for Text Image Machine Translation	May 9, 2023	DecoderMachine Translation	CodeCode Available	0
Text Reading Order in Uncontrolled Conditions by Sparse Graph Segmentation	May 4, 2023	Optical Character Recognition (OCR)	—Unverified	0
Evaluating BERT-based Scientific Relation Classifiers for Scholarly Knowledge Graph Construction on Digital Library Collections	May 3, 2023	graph constructionOptical Character Recognition	—Unverified	0
LLaMA-Adapter V2: Parameter-Efficient Visual Instruction Model	Apr 28, 2023	Instruction Followingmodel	CodeCode Available	5
DocParser: End-to-end OCR-free Information Extraction from Visually Rich Documents	Apr 24, 2023	Optical Character RecognitionOptical Character Recognition (OCR)	CodeCode Available	1
ICDAR 2023 Competition on Reading the Seal Title	Apr 24, 2023	Optical Character Recognition (OCR)Task 2	—Unverified	0
Multimodal Short Video Rumor Detection System Based on Contrastive Learning	Apr 17, 2023	Automatic Speech RecognitionAutomatic Speech Recognition (ASR)	—Unverified	0
TransDocs: Optical Character Recognition with word to word translation	Apr 15, 2023	Deep LearningDocument Translation	CodeCode Available	0
Cleansing Jewel: A Neural Spelling Correction Model Built On Google OCR-ed Tibetan Manuscripts	Apr 7, 2023	Optical Character RecognitionOptical Character Recognition (OCR)	—Unverified	0
Linking Representations with Multimodal Contrastive Learning	Apr 7, 2023	Contrastive LearningOptical Character Recognition	—Unverified	0
TagGPT: Large Language Models are Zero-shot Multimodal Taggers	Apr 6, 2023	Optical Character Recognition (OCR)Prompt Engineering	CodeCode Available	1
ChartReader: A Unified Framework for Chart Derendering and Comprehension without Heuristic Rules	Apr 5, 2023	Chart UnderstandingDerendering	CodeCode Available	1
Efficient OCR for Building a Diverse Digital History	Apr 5, 2023	DiversityImage Retrieval	CodeCode Available	1
GlyphDraw: Seamlessly Rendering Text with Intricate Spatial Structures in Text-to-Image Generation	Mar 31, 2023	Image GenerationOptical Character Recognition (OCR)	CodeCode Available	2
A semi-automatic method for document classification in the shipping industry	Mar 29, 2023	ClassificationDocument Classification	—Unverified	0
OVeNet: Offset Vector Network for Semantic Segmentation	Mar 25, 2023	Optical Character Recognition (OCR)Scene Understanding	CodeCode Available	0
Optical Character Recognition and Transcription of Berber Signs from Images in a Low-Resource Language Amazigh	Mar 21, 2023	Optical Character RecognitionOptical Character Recognition (OCR)	—Unverified	0
CLIP-ReIdent: Contrastive Training for Player Re-Identification	Mar 21, 2023	Optical Character Recognition (OCR)Sports Analytics	—Unverified	0
The System Description of dun_oscar team for The ICPR MSR Challenge	Mar 13, 2023	Optical Character Recognition (OCR)	—Unverified	0
BaDLAD: A Large Multi-Domain Bengali Document Layout Analysis Dataset	Mar 9, 2023	BenchmarkingDeep Learning	CodeCode Available	0
Meme Sentiment Analysis Enhanced with Multimodal Spatial Encoding and Facial Embedding	Mar 3, 2023	Optical Character Recognition (OCR)Position	—Unverified	0
StrucTexTv2: Masked Visual-Textual Prediction for Document Image Pre-training	Mar 1, 2023	Document Image Classificationimage-classification	CodeCode Available	0
Language Is Not All You Need: Aligning Perception with Language Models	Feb 27, 2023	AllImage Captioning	—Unverified	0
User-Centric Evaluation of OCR Systems for Kwak'wala	Feb 26, 2023	Optical Character RecognitionOptical Character Recognition (OCR)	—Unverified	0
Meta-Album: Multi-domain Meta-Dataset for Few-Shot Image Classification	Feb 16, 2023	Few-Shot Image ClassificationFew-Shot Learning	CodeCode Available	1
An Investigation into Pre-Training Object-Centric Representations for Reinforcement Learning	Feb 9, 2023	ObjectOptical Character Recognition (OCR)	—Unverified	0
SPARLING: Learning Latent Representations with Extremely Sparse Activations	Feb 3, 2023	Optical Character Recognition (OCR)	—Unverified	0
DEVICE: DEpth and VIsual ConcEpts Aware Transformer for TextCaps	Feb 3, 2023	Image CaptioningOptical Character Recognition (OCR)	—Unverified	0

Show:10 25 50

← PrevPage 10 of 25Next →

All datasets Benchmarking Chinese Text Recognition: Datasets, Baselines, and an Empirical Study VideoDB's OCR Benchmark Public Collection FSNS - Test I2L-140K SUT im2latex-100k

Benchmark Results

#	Model	Metric	Claimed	Verified	Status
1	DTrOCR	Accuracy (%)	89.6	—	Unverified
2	DTrOCR 105M	Accuracy (%)	89.6	—	Unverified
3	MaskOCR-L	Accuracy (%)	82.6	—	Unverified
4	TransOCR	Accuracy (%)	72.8	—	Unverified
5	SRN	Accuracy (%)	65	—	Unverified
6	MORAN	Accuracy (%)	64.3	—	Unverified
7	SEED	Accuracy (%)	61.2	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	GPT-4o	Average Accuracy	76.22	—	Unverified
2	Gemini-1.5 Pro	Average Accuracy	76.13	—	Unverified
3	Claude-3 Sonnet	Average Accuracy	67.71	—	Unverified
4	RapidOCR	Average Accuracy	56.98	—	Unverified
5	EasyOCR	Average Accuracy	49.3	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	STREET	Sequence error	27.54	—	Unverified
2	SEE	Sequence error	22	—	Unverified
3	AttentionOCR_Inception-resnet-v2_Location	Sequence error	15.8	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	I2L-NOPOOL	BLEU	89.09	—	Unverified
2	I2L-STRIPS	BLEU	89	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	Tesseract	Character Error Rate (CER)	0.08	—	Unverified
2	EasyOCR	Character Error Rate (CER)	0.07	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	I2L-STRIPS	BLEU	88.86	—	Unverified