Document Classification

Document Classification is a procedure of assigning one or more labels to a document from a predetermined set of labels.

Source: Long-length Legal Document Classification

Papers

Recently Added Most Hyped Most Active Needs Verification Most Verified

Showing 1–50 of 641 papers

Title	Date	Tasks	Status	Hype
Can Reasoning LLMs Enhance Clinical Document Classification?	Apr 10, 2025	ClassificationDocument Classification	CodeCode Available	0
Text Chunking for Document Classification for Urban System Management using Large Language Models	Mar 31, 2025	ChunkingDocument Classification	CodeCode Available	0
Evaluating Negative Sampling Approaches for Neural Topic Models	Mar 23, 2025	Document ClassificationTopic Models	CodeCode Available	0
Converting Transformers into DGNNs Form	Feb 1, 2025	Computational EfficiencyDocument Classification	CodeCode Available	0
Cross-Entropy Attacks to Language Models via Rare Event Simulation	Jan 21, 2025	Document ClassificationSaliency Ranking	CodeCode Available	0
On Importance of Layer Pruning for Smaller BERT Models and Low Resource Languages	Jan 1, 2025	ClassificationDocument Classification	—Unverified	0
Data-Driven Self-Supervised Graph Representation Learning	Dec 24, 2024	Data AugmentationDocument Classification	CodeCode Available	0
Extreme Multi-label Completion for Semantic Document Labelling with Taxonomy-Aware Parallel Learning	Dec 18, 2024	Document ClassificationMissing Labels	—Unverified	0
Zero-Shot Prompting and Few-Shot Fine-Tuning: Revisiting Document Image Classification Using Large Language Models	Dec 18, 2024	Document Classificationdocument-image-classification	—Unverified	0
Label Errors in the Tobacco3482 Dataset	Dec 17, 2024	Document Classificationvalid	CodeCode Available	0
WordVIS: A Color Worth A Thousand Words	Dec 13, 2024	Document Classification	—Unverified	0
Can Large Language Models Serve as Effective Classifiers for Hierarchical Multi-Label Classification of Scientific Documents at Industrial Scale?	Dec 6, 2024	ClassificationDocument Classification	—Unverified	0
HEAL: Hierarchical Embedding Alignment Loss for Improved Retrieval and Representation Learning	Dec 5, 2024	Contrastive LearningDocument Classification	CodeCode Available	1
Language Model Meets Prototypes: Towards Interpretable Text Classification Models through Prototypical Networks	Dec 4, 2024	ClassificationContrastive Learning	—Unverified	0
Enhancing Document AI Data Generation Through Graph-Based Synthetic Layouts	Nov 27, 2024	Document AIDocument Classification	—Unverified	0
Clustering Algorithms and RAG Enhancing Semi-Supervised Text Classification with Large LLMs	Nov 9, 2024	ClassificationClustering	—Unverified	0
Weakly-supervised diagnosis identification from Italian discharge letters	Oct 19, 2024	Document Classificationtext-classification	—Unverified	0
Medical-GAT: Cancer Document Classification Leveraging Graph-Based Residual Network for Scenarios with Limited Data	Oct 19, 2024	Document ClassificationGraph Attention	—Unverified	0
ChuLo: Chunk-Level Key Information Representation for Long Document Processing	Oct 14, 2024	ChunkingClassification	CodeCode Available	0
Text Classification using Graph Convolutional Networks: A Comprehensive Survey	Oct 12, 2024	ClassificationDocument Classification	—Unverified	0
Orthogonal Nonnegative Matrix Factorization with the Kullback-Leibler divergence	Oct 10, 2024	Document Classification	CodeCode Available	0
Efficient Few-shot Learning for Multi-label Classification of Scientific Documents with Many Classes	Oct 8, 2024	ArticlesClassification	CodeCode Available	1
Manual Verbalizer Enrichment for Few-Shot Text Classification	Oct 8, 2024	BenchmarkingClassification	—Unverified	0
Graph-tree Fusion Model with Bidirectional Information Propagation for Long Document Classification	Oct 3, 2024	Document ClassificationGraph Attention	—Unverified	0
FLAG: Financial Long Document Classification via AMR-based GNN	Oct 2, 2024	Abstract Meaning RepresentationDocument Classification	CodeCode Available	0
Document Type Classification using File Names	Oct 2, 2024	ClassificationDocument Classification	—Unverified	0
On Importance of Pruning and Distillation for Efficient Low Resource NLP	Sep 21, 2024	Document ClassificationGPU	—Unverified	0
SubRegWeigh: Effective and Efficient Annotation Weighing with Subword Regularization	Sep 10, 2024	Document Classificationnamed-entity-recognition	CodeCode Available	0
Out-of-Distribution Detection with Attention Head Masking for Multimodal Document Classification	Aug 20, 2024	Document AIDocument Classification	CodeCode Available	0
AutoML-guided Fusion of Entity and LLM-based Representations for Document Classification	Aug 19, 2024	AutoMLClassification	CodeCode Available	0
Diagnosis extraction from unstructured Dutch echocardiogram reports using span- and document-level characteristic classification	Aug 13, 2024	ClassificationDocument Classification	CodeCode Available	0
Prompting Encoder Models for Zero-Shot Classification: A Cross-Domain Study in Italian	Jul 30, 2024	Document ClassificationEntity Typing	—Unverified	0
An Improved Method for Class-specific Keyword Extraction: A Case Study in the German Business Registry	Jul 19, 2024	Document ClassificationKeyword Extraction	CodeCode Available	0
Hierarchical Multi-modal Transformer for Cross-modal Long Document Classification	Jul 14, 2024	Document ClassificationSentence	—Unverified	0
Rapid Biomedical Research Classification: The Pandemic PACT Advanced Categorisation Engine	Jul 14, 2024	Decision MakingDocument Classification	—Unverified	0
SuperGLEBer: German Language Understanding Evaluation Benchmark	Jun 20, 2024	Document ClassificationNatural Language Understanding	CodeCode Available	1
DocGenome: An Open Large-scale Scientific Document Benchmark for Training and Testing Multi-modal Large Language Models	Jun 17, 2024	Document ClassificationVisual Grounding	CodeCode Available	3
Focus on the Core: Efficient Attention via Pruned Token Compression for Document Classification	Jun 3, 2024	Document Classification	—Unverified	0
Auxiliary Knowledge-Induced Learning for Automatic Multi-Label Medical Document Classification	May 29, 2024	Document Classification	—Unverified	0
Evaluation of large language model performance on the Biomedical Language Understanding and Reasoning Benchmark	May 17, 2024	Document ClassificationLanguage Modeling	—Unverified	0
Length-Aware Multi-Kernel Transformer for Long Document Classification	May 11, 2024	Document ClassificationSentence	CodeCode Available	0
Improving Long Text Understanding with Knowledge Distilled from Summarization Model	May 8, 2024	Abstractive Text SummarizationDocument Classification	—Unverified	0
CICA: Content-Injected Contrastive Alignment for Zero-Shot Document Image Classification	May 6, 2024	Document Classificationdocument-image-classification	—Unverified	0
Machine Unlearning for Document Classification	Apr 29, 2024	ClassificationDocument Classification	CodeCode Available	0
L3Cube-MahaNews: News-based Short Text and Long Document Classification Datasets in Marathi	Apr 28, 2024	ArticlesDocument Classification	—Unverified	0
GuideWalk: A Novel Graph-Based Word Embedding for Enhanced Text Classification	Apr 25, 2024	ClassificationDocument Classification	—Unverified	0
BuDDIE: A Business Document Dataset for Multi-task Information Extraction	Apr 5, 2024	Document Classificationdocument understanding	—Unverified	0
Developing Healthcare Language Model Embedding Spaces	Mar 28, 2024	Contrastive LearningDocument Classification	—Unverified	0
Visually Guided Generative Text-Layout Pre-training for Document Intelligence	Mar 25, 2024	Document Classificationdocument understanding	CodeCode Available	2
NextLevelBERT: Masked Language Modeling with Higher-Level Representations for Long Documents	Feb 27, 2024	Document ClassificationLanguage Modeling	CodeCode Available	1

Show:10 25 50

← PrevPage 1 of 13Next →

All datasets Reuters-21578 Cora HOC BBCSport Amazon Twitter AAPD Classic IMDb-M Recipe SciDocs (MAG)SciDocs (MeSH)

Benchmark Results

#	Model	Metric	Claimed	Verified	Status
1	ApproxRepSet	Accuracy	97.17	—	Unverified
2	REL-RWMD k-NN	Accuracy	95.61	—	Unverified
3	Orthogonalized Soft VSM	Accuracy	92.65	—	Unverified
4	MAGNET	F1	89.9	—	Unverified
5	VLAWE	F1	89.3	—	Unverified
6	KD-LSTMreg	F1	88.9	—	Unverified
7	LSTM-reg (single model)	F1	87	—	Unverified
8	SCDV-MS	F1	82.71	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	ACNet	Accuracy	83.5	—	Unverified
2	LGCN	Accuracy	83.3	—	Unverified
3	GAT	Accuracy	83	—	Unverified
4	MoNet	Accuracy	81.7	—	Unverified
5	DeepWalk	Accuracy	67.2	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	BioLinkBERT (large)	F1	88.1	—	Unverified
2	NCBI_BERT(large) (P)	F1	87.3	—	Unverified
3	SciFive-large	F1	86.08	—	Unverified
4	BioGPT	Micro F1	85.12	—	Unverified
5	PubMedBERT uncased	Micro F1	82.32	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	MPAD-path	Accuracy	99.59	—	Unverified
2	Orthogonalized Soft VSM	Accuracy	97.73	—	Unverified
3	ApproxRepSet	Accuracy	95.73	—	Unverified
4	REL-RWMD k-NN	Accuracy	95.18	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	ApproxRepSet	Accuracy	94.31	—	Unverified
2	Orthogonalized Soft VSM	Accuracy	93.42	—	Unverified
3	REL-RWMD k-NN	Accuracy	93.03	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	ApproxRepSet	Accuracy	72.6	—	Unverified
2	REL-RWMD k-NN	Accuracy	71.05	—	Unverified
3	Orthogonalized Soft VSM	Accuracy	69.21	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	KD-LSTMreg	F1	72.9	—	Unverified
2	MAGNET	F1	69.6	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	REL-RWMD k-NN	Accuracy	96.85	—	Unverified
2	ApproxRepSet	Accuracy	96.24	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	Document Classification Using Importance of Sentences	Accuracy	54.8	—	Unverified
2	LSTM-reg (single model)	Accuracy	52.8	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	ApproxRepSet	Accuracy	59.06	—	Unverified
2	REL-RWMD k-NN	Accuracy	56.8	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	SPECTER	F1 (micro)	82	—	Unverified
2	SciNCL	F1 (micro)	81.4	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	SciNCL	F1 (micro)	88.7	—	Unverified
2	SPECTER	F1 (micro)	86.4	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	ConvTextTM	Accuracy	91.28	—	Unverified
2	HDLTex	Accuracy	90.93	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	ChuLo	Accuracy	95.38	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	ChuLo	Accuracy	64.4	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	MPAD-path	Accuracy	89.81	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	BilBOWA	Accuracy	75	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	BilBOWA	Accuracy	86.5	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	HDLTex	Accuracy	86.07	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	HDLTex	Accuracy	76.58	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	KD-LSTMreg	Accuracy	69.4	—	Unverified