Optical Character Recognition (OCR)

Optical Character Recognition or Optical Character Reader (OCR) is the electronic or mechanical conversion of images of typed, handwritten or printed text into machine-encoded text, whether from a scanned document, a photo of a document, a scene-photo (for example the text on signs and billboards in a landscape photo, license plates in cars...) or from subtitle text superimposed on an image (for example: from a television broadcast)

Papers

Recently Added Most Hyped Most Active Needs Verification Most Verified

Showing 351–400 of 1209 papers

Title	Date	Tasks	Status	Hype
Improving OCR Quality in 19th Century Historical Documents Using a Combined Machine Learning Based Approach	Jan 15, 2024	Optical Character Recognition (OCR)	—Unverified	0
An Empirical Study of Scaling Law for Scene Text Recognition	Jan 1, 2024	Optical Character Recognition (OCR)Scene Text Recognition	CodeCode Available	2
Efficient Multi-domain Text Recognition Deep Neural Network Parameterization with Residual Adapters	Jan 1, 2024	Multi-Task LearningOptical Character Recognition	CodeCode Available	0
Bidirectional Trained Tree-Structured Decoder for Handwritten Mathematical Expression Recognition	Dec 31, 2023	DecoderLanguage Modeling	—Unverified	0
An Empirical Study of Scaling Law for OCR	Dec 29, 2023	Optical Character RecognitionOptical Character Recognition (OCR)	CodeCode Available	1
Chaurah: A Smart Raspberry Pi based Parking System	Dec 28, 2023	Optical Character RecognitionOptical Character Recognition (OCR)	—Unverified	0
Advancements and Challenges in Arabic Optical Character Recognition: A Comprehensive Survey	Dec 19, 2023	ArticlesOptical Character Recognition	—Unverified	0
TDeLTA: A Light-weight and Robust Table Detection Method based on Learning Text Arrangement	Dec 18, 2023	Optical Character Recognition (OCR)Table Detection	—Unverified	0
When Graph Data Meets Multimodal: A New Paradigm for Graph Understanding and Reasoning	Dec 16, 2023	Optical Character Recognition (OCR)	CodeCode Available	1
Privacy-Aware Document Visual Question Answering	Dec 15, 2023	document understandingFederated Learning	CodeCode Available	1
Information Extraction from Unstructured data using Augmented-AI and Computer Vision	Dec 15, 2023	Optical Character Recognition (OCR)	—Unverified	0
Polar-Doc: One-Stage Document Dewarping with Multi-Scope Constraints under Polar Representation	Dec 13, 2023	Optical Character Recognition (OCR)	—Unverified	0
Multimodal Sentiment Analysis: Perceived vs Induced Sentiments	Dec 12, 2023	Multimodal Sentiment AnalysisOptical Character Recognition (OCR)	—Unverified	0
Vary: Scaling up the Vision Vocabulary for Large Vision-Language Models	Dec 11, 2023	Chart UnderstandingDecoder	CodeCode Available	3
UPOCR: Towards Unified Pixel-Level OCR Interface	Dec 5, 2023	DecoderOptical Character Recognition	—Unverified	0
Enhancing Vehicle Entrance and Parking Management: Deep Learning Solutions for Efficiency and Security	Dec 5, 2023	Face DetectionLicense Plate Recognition	—Unverified	0
DocReal: Robust Document Dewarping of Real-Life Images via Attention-Enhanced Control Point Prediction	Dec 1, 2023	Optical Character Recognition (OCR)	CodeCode Available	1
Pipeline Enabling Zero-shot Classification for Bangla Handwritten Grapheme	Dec 1, 2023	Bangla Text DetectionClassification	—Unverified	0
Automatic Recognition of Learning Resource Category in a Digital Library	Nov 28, 2023	document-image-classificationDocument Image Classification	CodeCode Available	0
Vulnerability Analysis of Transformer-based Optical Character Recognition to Adversarial Attacks	Nov 28, 2023	Adversarial AttackOptical Character Recognition	—Unverified	0
SUT: a new multi-purpose synthetic dataset for Farsi document image analysis	Nov 27, 2023	Document Classificationdocument-image-classification	CodeCode Available	0
Optimization of Image Processing Algorithms for Character Recognition in Cultural Typewritten Documents	Nov 27, 2023	Optical Character RecognitionOptical Character Recognition (OCR)	CodeCode Available	0
Data Generation for Post-OCR correction of Cyrillic handwriting	Nov 27, 2023	Handwriting generationHandwritten Text Recognition	CodeCode Available	1
Similar Document Template Matching Algorithm	Nov 21, 2023	Fraud DetectionOptical Character Recognition (OCR)	—Unverified	0
ChemScraper: Leveraging PDF Graphics Instructions for Molecular Diagram Parsing	Nov 20, 2023	Optical Character RecognitionOptical Character Recognition (OCR)	CodeCode Available	0
DocPedia: Unleashing the Power of Large Multimodal Model in the Frequency Domain for Versatile Document Understanding	Nov 20, 2023	document understandingLanguage Modeling	—Unverified	0
Efficient End-to-End Visual Document Understanding with Rationale Distillation	Nov 16, 2023	document understandingImage to text	—Unverified	0
DECDM: Document Enhancement using Cycle-Consistent Diffusion Models	Nov 16, 2023	Data AugmentationDenoising	—Unverified	0
Multiple-Question Multiple-Answer Text-VQA	Nov 15, 2023	DecoderDenoising	—Unverified	0
Reading Between the Mud: A Challenging Motorcycle Racer Number Dataset	Nov 14, 2023	Optical Character RecognitionOptical Character Recognition (OCR)	CodeCode Available	0
What Large Language Models Bring to Text-rich VQA?	Nov 13, 2023	Image ComprehensionOptical Character Recognition (OCR)	—Unverified	0
DONUT-hole: DONUT Sparsification by Harnessing Knowledge and Optimizing Learning Efficiency	Nov 9, 2023	document understandingKey Information Extraction	—Unverified	0
FigStep: Jailbreaking Large Vision-Language Models via Typographic Visual Prompts	Nov 9, 2023	Optical Character Recognition (OCR)Safety Alignment	CodeCode Available	1
AnyText: Multilingual Visual Text Generation And Editing	Nov 6, 2023	Image GenerationOptical Character Recognition (OCR)	CodeCode Available	4
On Manipulating Scene Text in the Wild with Diffusion Models	Nov 1, 2023	Optical Character RecognitionOptical Character Recognition (OCR)	CodeCode Available	0
DCQA: Document-Level Chart Question Answering towards Complex Reasoning and Common-Sense Understanding	Oct 29, 2023	Answer GenerationChart Question Answering	CodeCode Available	0
Exploring OCR Capabilities of GPT-4V(ision) : A Quantitative and In-depth Evaluation	Oct 25, 2023	Handwritten Text RecognitionKey Information Extraction	CodeCode Available	1
GenKIE: Robust Generative Multimodal Document Key Information Extraction	Oct 24, 2023	DecoderKey Information Extraction	CodeCode Available	1
PHD: Pixel-Based Language Modeling of Historical Documents	Oct 22, 2023	Language ModelingLanguage Modelling	CodeCode Available	0
MultiCoNER v2: a Large Multilingual dataset for Fine-grained and Noisy Named Entity Recognition	Oct 20, 2023	named-entity-recognitionNamed Entity Recognition	—Unverified	0
DocXChain: A Powerful Open-Source Toolchain for Document Parsing and Beyond	Oct 19, 2023	Document AIDocument Layout Analysis	—Unverified	0
Towards reducing hallucination in extracting information from financial reports using Large Language Models	Oct 16, 2023	HallucinationOptical Character Recognition	—Unverified	0
EfficientOCR: An Extensible, Open-Source Package for Efficiently Digitizing World Knowledge	Oct 16, 2023	Image RetrievalLanguage Modeling	—Unverified	0
DSG: An End-to-End Document Structure Generator	Oct 13, 2023	Optical Character Recognition (OCR)	CodeCode Available	1
Exploring Sparse Spatial Relation in Graph Inference for Text-Based VQA	Oct 13, 2023	Graph LearningObject	—Unverified	0
Invisible Threats: Backdoor Attack in OCR Systems	Oct 12, 2023	Backdoor AttackOptical Character Recognition	—Unverified	0
Solution for SMART-101 Challenge of ICCV Multi-modal Algorithmic Reasoning Task 2023	Oct 10, 2023	Decoderobject-detection	—Unverified	0
UReader: Universal OCR-free Visually-situated Language Understanding with Multimodal Large Language Model	Oct 8, 2023	DecoderLanguage Modeling	CodeCode Available	1
Persis: A Persian Font Recognition Pipeline Using Convolutional Neural Networks	Oct 8, 2023	BinarizationCPU	CodeCode Available	1
Symmetrical Linguistic Feature Distillation with CLIP for Scene Text Recognition	Oct 8, 2023	Image to textOptical Character Recognition (OCR)	CodeCode Available	1

Show:10 25 50

← PrevPage 8 of 25Next →

All datasets Benchmarking Chinese Text Recognition: Datasets, Baselines, and an Empirical Study VideoDB's OCR Benchmark Public Collection FSNS - Test I2L-140K SUT im2latex-100k

Benchmark Results

#	Model	Metric	Claimed	Verified	Status
1	DTrOCR 105M	Accuracy (%)	89.6	—	Unverified
2	DTrOCR	Accuracy (%)	89.6	—	Unverified
3	MaskOCR-L	Accuracy (%)	82.6	—	Unverified
4	TransOCR	Accuracy (%)	72.8	—	Unverified
5	SRN	Accuracy (%)	65	—	Unverified
6	MORAN	Accuracy (%)	64.3	—	Unverified
7	SEED	Accuracy (%)	61.2	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	GPT-4o	Average Accuracy	76.22	—	Unverified
2	Gemini-1.5 Pro	Average Accuracy	76.13	—	Unverified
3	Claude-3 Sonnet	Average Accuracy	67.71	—	Unverified
4	RapidOCR	Average Accuracy	56.98	—	Unverified
5	EasyOCR	Average Accuracy	49.3	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	STREET	Sequence error	27.54	—	Unverified
2	SEE	Sequence error	22	—	Unverified
3	AttentionOCR_Inception-resnet-v2_Location	Sequence error	15.8	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	I2L-NOPOOL	BLEU	89.09	—	Unverified
2	I2L-STRIPS	BLEU	89	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	Tesseract	Character Error Rate (CER)	0.08	—	Unverified
2	EasyOCR	Character Error Rate (CER)	0.07	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	I2L-STRIPS	BLEU	88.86	—	Unverified