Optical Character Recognition (OCR)

Optical Character Recognition or Optical Character Reader (OCR) is the electronic or mechanical conversion of images of typed, handwritten or printed text into machine-encoded text, whether from a scanned document, a photo of a document, a scene-photo (for example the text on signs and billboards in a landscape photo, license plates in cars...) or from subtitle text superimposed on an image (for example: from a television broadcast)

Papers

Recently Added Most Hyped Most Active Needs Verification Most Verified

Showing 501–525 of 1209 papers

Title	Date	Tasks	Status
Advancements and Challenges in Arabic Optical Character Recognition: A Comprehensive Survey	Dec 19, 2023	ArticlesOptical Character Recognition	—Unverified
TDeLTA: A Light-weight and Robust Table Detection Method based on Learning Text Arrangement	Dec 18, 2023	Optical Character Recognition (OCR)Table Detection	—Unverified
Information Extraction from Unstructured data using Augmented-AI and Computer Vision	Dec 15, 2023	Optical Character Recognition (OCR)	—Unverified
Polar-Doc: One-Stage Document Dewarping with Multi-Scope Constraints under Polar Representation	Dec 13, 2023	Optical Character Recognition (OCR)	—Unverified
Multimodal Sentiment Analysis: Perceived vs Induced Sentiments	Dec 12, 2023	Multimodal Sentiment AnalysisOptical Character Recognition (OCR)	—Unverified
Enhancing Vehicle Entrance and Parking Management: Deep Learning Solutions for Efficiency and Security	Dec 5, 2023	Face DetectionLicense Plate Recognition	—Unverified
UPOCR: Towards Unified Pixel-Level OCR Interface	Dec 5, 2023	DecoderOptical Character Recognition	—Unverified
Pipeline Enabling Zero-shot Classification for Bangla Handwritten Grapheme	Dec 1, 2023	Bangla Text DetectionClassification	—Unverified
Automatic Recognition of Learning Resource Category in a Digital Library	Nov 28, 2023	document-image-classificationDocument Image Classification	CodeCode Available
Vulnerability Analysis of Transformer-based Optical Character Recognition to Adversarial Attacks	Nov 28, 2023	Adversarial AttackOptical Character Recognition	—Unverified
Optimization of Image Processing Algorithms for Character Recognition in Cultural Typewritten Documents	Nov 27, 2023	Optical Character RecognitionOptical Character Recognition (OCR)	CodeCode Available
SUT: a new multi-purpose synthetic dataset for Farsi document image analysis	Nov 27, 2023	Document Classificationdocument-image-classification	CodeCode Available
Similar Document Template Matching Algorithm	Nov 21, 2023	Fraud DetectionOptical Character Recognition (OCR)	—Unverified
ChemScraper: Leveraging PDF Graphics Instructions for Molecular Diagram Parsing	Nov 20, 2023	Optical Character RecognitionOptical Character Recognition (OCR)	CodeCode Available
DocPedia: Unleashing the Power of Large Multimodal Model in the Frequency Domain for Versatile Document Understanding	Nov 20, 2023	document understandingLanguage Modeling	—Unverified
Efficient End-to-End Visual Document Understanding with Rationale Distillation	Nov 16, 2023	document understandingImage to text	—Unverified
DECDM: Document Enhancement using Cycle-Consistent Diffusion Models	Nov 16, 2023	Data AugmentationDenoising	—Unverified
Multiple-Question Multiple-Answer Text-VQA	Nov 15, 2023	DecoderDenoising	—Unverified
Reading Between the Mud: A Challenging Motorcycle Racer Number Dataset	Nov 14, 2023	Optical Character RecognitionOptical Character Recognition (OCR)	CodeCode Available
What Large Language Models Bring to Text-rich VQA?	Nov 13, 2023	Image ComprehensionOptical Character Recognition (OCR)	—Unverified
DONUT-hole: DONUT Sparsification by Harnessing Knowledge and Optimizing Learning Efficiency	Nov 9, 2023	document understandingKey Information Extraction	—Unverified
On Manipulating Scene Text in the Wild with Diffusion Models	Nov 1, 2023	Optical Character RecognitionOptical Character Recognition (OCR)	CodeCode Available
DCQA: Document-Level Chart Question Answering towards Complex Reasoning and Common-Sense Understanding	Oct 29, 2023	Answer GenerationChart Question Answering	CodeCode Available
PHD: Pixel-Based Language Modeling of Historical Documents	Oct 22, 2023	Language ModelingLanguage Modelling	CodeCode Available
MultiCoNER v2: a Large Multilingual dataset for Fine-grained and Noisy Named Entity Recognition	Oct 20, 2023	named-entity-recognitionNamed Entity Recognition	—Unverified

Show:10 25 50

← PrevPage 21 of 49Next →

All datasets Benchmarking Chinese Text Recognition: Datasets, Baselines, and an Empirical Study VideoDB's OCR Benchmark Public Collection FSNS - Test I2L-140K SUT im2latex-100k

Benchmark Results

#	Model	Metric	Claimed	Verified	Status
1	DTrOCR	Accuracy (%)	89.6	—	Unverified
2	DTrOCR 105M	Accuracy (%)	89.6	—	Unverified
3	MaskOCR-L	Accuracy (%)	82.6	—	Unverified
4	TransOCR	Accuracy (%)	72.8	—	Unverified
5	SRN	Accuracy (%)	65	—	Unverified
6	MORAN	Accuracy (%)	64.3	—	Unverified
7	SEED	Accuracy (%)	61.2	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	GPT-4o	Average Accuracy	76.22	—	Unverified
2	Gemini-1.5 Pro	Average Accuracy	76.13	—	Unverified
3	Claude-3 Sonnet	Average Accuracy	67.71	—	Unverified
4	RapidOCR	Average Accuracy	56.98	—	Unverified
5	EasyOCR	Average Accuracy	49.3	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	STREET	Sequence error	27.54	—	Unverified
2	SEE	Sequence error	22	—	Unverified
3	AttentionOCR_Inception-resnet-v2_Location	Sequence error	15.8	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	I2L-NOPOOL	BLEU	89.09	—	Unverified
2	I2L-STRIPS	BLEU	89	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	Tesseract	Character Error Rate (CER)	0.08	—	Unverified
2	EasyOCR	Character Error Rate (CER)	0.07	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	I2L-STRIPS	BLEU	88.86	—	Unverified