Document Image Classification

Document image classification is the task of classifying documents based on images of their contents.

( Image credit: Real-Time Document Image Classification using Deep CNN and Extreme Learning Machines )

Papers

Recently Added Most Hyped Most Active Needs Verification Most Verified

Showing 1–25 of 50 papers

Title	Date	Tasks	Status	Hype
OCR-free Document Understanding Transformer	Nov 30, 2021	Document Image Classificationdocument understanding	CodeCode Available	3
LayoutLM: Pre-training of Text and Layout for Document Image Understanding	Dec 31, 2019	Document AIdocument-image-classification	CodeCode Available	2
BEiT: BERT Pre-Training of Image Transformers	Jun 15, 2021	Document Image ClassificationDocument Layout Analysis	CodeCode Available	2
LiLT: A Simple yet Effective Language-Independent Layout Transformer for Structured Document Understanding	Feb 28, 2022	Document Image Classificationdocument understanding	CodeCode Available	2
Revisiting ResNets: Improved Training and Scaling Strategies	Mar 13, 2021	Action ClassificationDocument Image Classification	CodeCode Available	1
DocXClassifier: High Performance Explainable Deep Network for Document Image Classification	Mar 17, 2022	ClassificationData Augmentation	CodeCode Available	1
Going Full-TILT Boogie on Document Understanding with Text-Image-Layout Transformer	Feb 18, 2021	DecoderDocument Image Classification	CodeCode Available	1
Improving accuracy and speeding up Document Image Classification through parallel systems	Jun 16, 2020	Document Classificationdocument-image-classification	CodeCode Available	1
Training data-efficient image transformers & distillation through attention	Dec 23, 2020	Document Image ClassificationDocument Layout Analysis	CodeCode Available	1
Multimodal Side-Tuning for Document Classification	Jan 16, 2023	ClassificationDocument Classification	CodeCode Available	1
DiT: Self-supervised Pre-training for Document Image Transformer	Mar 4, 2022	Document AIdocument-image-classification	CodeCode Available	1
DocFormer: End-to-End Transformer for Document Understanding	Jun 22, 2021	Document Image Classificationdocument understanding	CodeCode Available	1
RoBERTa: A Robustly Optimized BERT Pretraining Approach	Jul 26, 2019	Common Sense ReasoningDocument Image Classification	CodeCode Available	1
ERNIE-Layout: Layout Knowledge Enhanced Pre-training for Visually-rich Document Understanding	Oct 12, 2022	document-image-classificationDocument Image Classification	CodeCode Available	1
LayoutLLM: Large Language Model Instruction Tuning for Visually Rich Document Understanding	Mar 21, 2024	document-image-classificationDocument Image Classification	—Unverified	0
LayoutMask: Enhance Text-Layout Interaction in Multi-modal Pre-training for Document Understanding	May 30, 2023	document-image-classificationDocument Image Classification	—Unverified	0
Real-Time Document Image Classification using Deep CNN and Extreme Learning Machines	Nov 3, 2017	ClassificationDeep Learning	—Unverified	0
Analysis of Convolutional Neural Networks for Document Image Classification	Aug 10, 2017	ClassificationData Augmentation	—Unverified	0
CICA: Content-Injected Contrastive Alignment for Zero-Shot Document Image Classification	May 6, 2024	Document Classificationdocument-image-classification	—Unverified	0
Context-Aware Classification of Legal Document Pages	Apr 5, 2023	Classificationdocument-image-classification	—Unverified	0
DistilDoc: Knowledge Distillation for Visually-Rich Document Applications	Jun 12, 2024	document-image-classificationDocument Image Classification	—Unverified	0
Document AI: Benchmarks, Models and Applications	Nov 16, 2021	Deep LearningDocument AI	—Unverified	0
Document image classification, with a specific view on applications of patent images	Jan 13, 2016	document-image-classificationDocument Image Classification	—Unverified	0
DocXplain: A Novel Model-Agnostic Explainability Method for Document Image Classification	Jul 4, 2024	document-image-classificationDocument Image Classification	—Unverified	0
Domain Agnostic Few-Shot Learning For Document Intelligence	Oct 29, 2021	ClassificationCross-Domain Few-Shot	—Unverified	0

Show:10 25 50

← PrevPage 1 of 2Next →

All datasets RVL-CDIP Tobacco-3482 Noisy Bangla Characters Noisy Bangla Numeral AIP N-MNIST Noisy MNIST SUT

Benchmark Results

#	Model	Metric	Claimed	Verified	Status
1	EAML	Accuracy	97.7	—	Unverified
2	Cross-Modal	Accuracy	97.05	—	Unverified
3	DocFormerBASE	Accuracy	96.17	—	Unverified
4	LayoutLMV3Large	Accuracy	95.93	—	Unverified
5	LiLT[EN-R]BASE	Accuracy	95.68	—	Unverified
6	LayoutLMv2LARGE	Accuracy	95.64	—	Unverified
7	TILT-Large	Accuracy	95.52	—	Unverified
8	DocFormer large	Accuracy	95.5	—	Unverified
9	LayoutLMv3BASE	Accuracy	95.44	—	Unverified
10	Donut	Accuracy	95.3	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	DocXClassifier-L	Accuracy	95.57	—	Unverified
2	DocBert [DOCBERT]	Accuracy	91.95	—	Unverified
3	Eff-GNN + Word2Vec [word2vec]	Accuracy	91	—	Unverified
4	Multimodal Side-Tuning (MobileNetV2)	Accuracy	90.5	—	Unverified
5	Multimodal Side-Tuning (ResNet50)	Accuracy	90.3	—	Unverified
6	DocBERT [DOCBERT]	Accuracy	82.3	—	Unverified
7	BERT [BERT]	Accuracy	79	—	Unverified
8	Eff-GNN + Word2Vec [word2vec] + Image Embedding	Accuracy	77.5	—	Unverified
9	Eff-GNN+ Word2Vec [word2vec]	Accuracy	73.5	—	Unverified
10	VGG	Memory	7.08	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	PCGAN-CHAR	Accuracy	89.54	—	Unverified
2	Pixel-level RC	Accuracy	77.22	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	PCGAN-CHAR	Accuracy	96.68	—	Unverified
2	Pixel-level RC	Accuracy	95.46	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	ResNet-RS (ResNet-200 + RS training tricks)	Top 1 Accuracy - Verb	83.4	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	Pixel-level RC	Accuracy	97.62	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	PCGAN-CHAR	Accuracy	98.43	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	CNN	Accuracy	86	—	Unverified