Optical Character Recognition (OCR)

Optical Character Recognition or Optical Character Reader (OCR) is the electronic or mechanical conversion of images of typed, handwritten or printed text into machine-encoded text, whether from a scanned document, a photo of a document, a scene-photo (for example the text on signs and billboards in a landscape photo, license plates in cars...) or from subtitle text superimposed on an image (for example: from a television broadcast)

Papers

Recently Added Most Hyped Most Active Needs Verification Most Verified

Showing 451–475 of 1209 papers

Title	Date	Tasks	Status	Hype
DocFormerv2: Local Features for Document Understanding	Jun 2, 2023	Decoderdocument understanding	CodeCode Available	1
Layout and Task Aware Instruction Prompt for Zero-shot Document Image Question Answering	Jun 1, 2023	Optical Character Recognition (OCR)Question Answering	CodeCode Available	1
Improving Handwritten OCR with Training Samples Generated by Glyph Conditional Denoising Diffusion Probabilistic Model	May 31, 2023	DenoisingOptical Character Recognition (OCR)	—Unverified	0
A template-independent approach for information extraction in real estate documents	May 30, 2023	Information RetrievalNatural Language Understanding	CodeCode Available	0
DuoSearch: A Novel Search Engine for Bulgarian Historical Documents	May 30, 2023	Optical Character RecognitionOptical Character Recognition (OCR)	CodeCode Available	0
GlyphControl: Glyph Conditional Control for Visual Text Generation	May 29, 2023	Optical Character Recognition (OCR)Text Generation	CodeCode Available	2
FuseCap: Leveraging Large Language Models for Enriched Fused Image Captions	May 28, 2023	AttributeImage Captioning	CodeCode Available	1
Exploring Better Text Image Translation with Multimodal Codebook	May 27, 2023	Machine TranslationOptical Character Recognition	CodeCode Available	1
Super-Resolution of License Plate Images Using Attention Modules and Sub-Pixel Convolution Layers	May 27, 2023	Image Super-ResolutionLicense Plate Recognition	CodeCode Available	1
People and Places of Historical Europe: Bootstrapping Annotation Pipeline and a New Corpus of Named Entities in Late Medieval Texts	May 26, 2023	Information Retrievalnamed-entity-recognition	—Unverified	0
MRN: Multiplexed Routing Network for Incremental Multilingual Text Recognition	May 24, 2023	Continual LearningIncremental Learning	CodeCode Available	1
Quantifying Character Similarity with Vision Transformers	May 24, 2023	Optical Character Recognition (OCR)	CodeCode Available	0
DUBLIN -- Document Understanding By Language-Image Network	May 23, 2023	Document Classificationdocument understanding	—Unverified	0
Measuring Intersectional Biases in Historical Documents	May 21, 2023	Optical Character RecognitionOptical Character Recognition (OCR)	CodeCode Available	0
XTREME-UP: A User-Centric Scarce-Data Benchmark for Under-Represented Languages	May 19, 2023	In-Context LearningMultilingual NLP	CodeCode Available	1
TextDiffuser: Diffusion Models as Text Painters	May 18, 2023	Optical Character Recognition (OCR)	—Unverified	0
Sequence-to-Sequence Pre-training with Unified Modality Masking for Visual Document Understanding	May 16, 2023	Decoderdocument understanding	—Unverified	0
Mobile User Interface Element Detection Via Adaptively Prompt Tuning	May 16, 2023	object-detectionObject Detection	CodeCode Available	0
OCRBench: On the Hidden Mystery of OCR in Large Multimodal Models	May 13, 2023	Key Information ExtractionNutrition	CodeCode Available	2
Visual Information Extraction in the Wild: Practical Dataset and End-to-end Solution	May 12, 2023	Contrastive LearningOptical Character Recognition (OCR)	CodeCode Available	1
Combining OCR Models for Reading Early Modern Printed Books	May 11, 2023	Font RecognitionOptical Character Recognition (OCR)	CodeCode Available	0
TPS++: Attention-Enhanced Thin-Plate Spline for Scene Text Recognition	May 9, 2023	Optical Character Recognition (OCR)Scene Text Recognition	CodeCode Available	1
E2TIMT: Efficient and Effective Modal Adapter for Text Image Machine Translation	May 9, 2023	DecoderMachine Translation	CodeCode Available	0
Text Reading Order in Uncontrolled Conditions by Sparse Graph Segmentation	May 4, 2023	Optical Character Recognition (OCR)	—Unverified	0
Evaluating BERT-based Scientific Relation Classifiers for Scholarly Knowledge Graph Construction on Digital Library Collections	May 3, 2023	graph constructionOptical Character Recognition	—Unverified	0

Show:10 25 50

← PrevPage 19 of 49Next →

All datasets Benchmarking Chinese Text Recognition: Datasets, Baselines, and an Empirical Study VideoDB's OCR Benchmark Public Collection FSNS - Test I2L-140K SUT im2latex-100k

Benchmark Results

#	Model	Metric	Claimed	Verified	Status
1	DTrOCR	Accuracy (%)	89.6	—	Unverified
2	DTrOCR 105M	Accuracy (%)	89.6	—	Unverified
3	MaskOCR-L	Accuracy (%)	82.6	—	Unverified
4	TransOCR	Accuracy (%)	72.8	—	Unverified
5	SRN	Accuracy (%)	65	—	Unverified
6	MORAN	Accuracy (%)	64.3	—	Unverified
7	SEED	Accuracy (%)	61.2	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	GPT-4o	Average Accuracy	76.22	—	Unverified
2	Gemini-1.5 Pro	Average Accuracy	76.13	—	Unverified
3	Claude-3 Sonnet	Average Accuracy	67.71	—	Unverified
4	RapidOCR	Average Accuracy	56.98	—	Unverified
5	EasyOCR	Average Accuracy	49.3	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	STREET	Sequence error	27.54	—	Unverified
2	SEE	Sequence error	22	—	Unverified
3	AttentionOCR_Inception-resnet-v2_Location	Sequence error	15.8	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	I2L-NOPOOL	BLEU	89.09	—	Unverified
2	I2L-STRIPS	BLEU	89	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	Tesseract	Character Error Rate (CER)	0.08	—	Unverified
2	EasyOCR	Character Error Rate (CER)	0.07	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	I2L-STRIPS	BLEU	88.86	—	Unverified