Document Classification

Document Classification is a procedure of assigning one or more labels to a document from a predetermined set of labels.

Source: Long-length Legal Document Classification

Papers

Recently Added Most Hyped Most Active Needs Verification Most Verified

Showing 101–150 of 641 papers

Title	Date	Tasks	Status
Medical-GAT: Cancer Document Classification Leveraging Graph-Based Residual Network for Scenarios with Limited Data	Oct 19, 2024	Document ClassificationGraph Attention	—Unverified
Weakly-supervised diagnosis identification from Italian discharge letters	Oct 19, 2024	Document Classificationtext-classification	—Unverified
ChuLo: Chunk-Level Key Information Representation for Long Document Processing	Oct 14, 2024	ChunkingClassification	CodeCode Available
Text Classification using Graph Convolutional Networks: A Comprehensive Survey	Oct 12, 2024	ClassificationDocument Classification	—Unverified
Orthogonal Nonnegative Matrix Factorization with the Kullback-Leibler divergence	Oct 10, 2024	Document Classification	CodeCode Available
Manual Verbalizer Enrichment for Few-Shot Text Classification	Oct 8, 2024	BenchmarkingClassification	—Unverified
Graph-tree Fusion Model with Bidirectional Information Propagation for Long Document Classification	Oct 3, 2024	Document ClassificationGraph Attention	—Unverified
FLAG: Financial Long Document Classification via AMR-based GNN	Oct 2, 2024	Abstract Meaning RepresentationDocument Classification	CodeCode Available
Document Type Classification using File Names	Oct 2, 2024	ClassificationDocument Classification	—Unverified
On Importance of Pruning and Distillation for Efficient Low Resource NLP	Sep 21, 2024	Document ClassificationGPU	—Unverified
SubRegWeigh: Effective and Efficient Annotation Weighing with Subword Regularization	Sep 10, 2024	Document Classificationnamed-entity-recognition	CodeCode Available
Out-of-Distribution Detection with Attention Head Masking for Multimodal Document Classification	Aug 20, 2024	Document AIDocument Classification	CodeCode Available
AutoML-guided Fusion of Entity and LLM-based Representations for Document Classification	Aug 19, 2024	AutoMLClassification	CodeCode Available
Diagnosis extraction from unstructured Dutch echocardiogram reports using span- and document-level characteristic classification	Aug 13, 2024	ClassificationDocument Classification	CodeCode Available
Prompting Encoder Models for Zero-Shot Classification: A Cross-Domain Study in Italian	Jul 30, 2024	Document ClassificationEntity Typing	—Unverified
An Improved Method for Class-specific Keyword Extraction: A Case Study in the German Business Registry	Jul 19, 2024	Document ClassificationKeyword Extraction	CodeCode Available
Hierarchical Multi-modal Transformer for Cross-modal Long Document Classification	Jul 14, 2024	Document ClassificationSentence	—Unverified
Rapid Biomedical Research Classification: The Pandemic PACT Advanced Categorisation Engine	Jul 14, 2024	Decision MakingDocument Classification	—Unverified
Focus on the Core: Efficient Attention via Pruned Token Compression for Document Classification	Jun 3, 2024	Document Classification	—Unverified
Auxiliary Knowledge-Induced Learning for Automatic Multi-Label Medical Document Classification	May 29, 2024	Document Classification	—Unverified
Evaluation of large language model performance on the Biomedical Language Understanding and Reasoning Benchmark	May 17, 2024	Document ClassificationLanguage Modeling	—Unverified
Length-Aware Multi-Kernel Transformer for Long Document Classification	May 11, 2024	Document ClassificationSentence	CodeCode Available
Improving Long Text Understanding with Knowledge Distilled from Summarization Model	May 8, 2024	Abstractive Text SummarizationDocument Classification	—Unverified
CICA: Content-Injected Contrastive Alignment for Zero-Shot Document Image Classification	May 6, 2024	Document Classificationdocument-image-classification	—Unverified
Machine Unlearning for Document Classification	Apr 29, 2024	ClassificationDocument Classification	CodeCode Available
L3Cube-MahaNews: News-based Short Text and Long Document Classification Datasets in Marathi	Apr 28, 2024	ArticlesDocument Classification	—Unverified
GuideWalk: A Novel Graph-Based Word Embedding for Enhanced Text Classification	Apr 25, 2024	ClassificationDocument Classification	—Unverified
BuDDIE: A Business Document Dataset for Multi-task Information Extraction	Apr 5, 2024	Document Classificationdocument understanding	—Unverified
Developing Healthcare Language Model Embedding Spaces	Mar 28, 2024	Contrastive LearningDocument Classification	—Unverified
Clustering Document Parts: Detecting and Characterizing Influence Campaigns from Documents	Feb 27, 2024	ClusteringDocument Classification	CodeCode Available
NLP for Knowledge Discovery and Information Extraction from Energetics Corpora	Feb 10, 2024	ArticlesDocument Classification	—Unverified
Efficient Models for the Detection of Hate, Abuse and Profanity	Feb 8, 2024	Document Classificationnamed-entity-recognition	—Unverified
Generalized Sobolev Transport for Probability Measures on a Graph	Feb 7, 2024	Document ClassificationTopological Data Analysis	CodeCode Available
A Learning oriented DLP System based on Classification Model	Dec 21, 2023	ClassificationDocument Classification	—Unverified
Diversifying Knowledge Enhancement of Biomedical Language Models using Adapter Modules and Knowledge Graphs	Dec 21, 2023	Document ClassificationKnowledge Graphs	—Unverified
MELO: Enhancing Model Editing with Neuron-Indexed Dynamic LoRA	Dec 19, 2023	Document ClassificationHallucination	CodeCode Available
Large language models in healthcare and medical domain: A review	Dec 12, 2023	Document Classificationnamed-entity-recognition	—Unverified
Summarization-based Data Augmentation for Document Classification	Dec 1, 2023	ClassificationData Augmentation	CodeCode Available
SUT: a new multi-purpose synthetic dataset for Farsi document image analysis	Nov 27, 2023	Document Classificationdocument-image-classification	CodeCode Available
Learning Section Weights for Multi-Label Document Classification	Nov 26, 2023	ArticlesClassification	—Unverified
Causality is all you need	Nov 21, 2023	AllDocument Classification	—Unverified
ATLANTIC: Structure-Aware Retrieval-Augmented Language Model for Interdisciplinary Science	Nov 21, 2023	Document ClassificationGraph Neural Network	—Unverified
Explainable Text Classification Techniques in Legal Document Review: Locating Rationales without Using Human Annotated Training Text Snippets	Nov 15, 2023	Document Classificationtext-classification	—Unverified
A Multi-Modal Multilingual Benchmark for Document Image Classification	Oct 25, 2023	ClassificationCross-Lingual Transfer	—Unverified
Enhancing Document Information Analysis with Multi-Task Pre-training: A Robust Approach for Information Extraction in Visually-Rich Documents	Oct 25, 2023	AllDocument Classification	—Unverified
Optimal Transport for Measures with Noisy Tree Metric	Oct 20, 2023	Document ClassificationTopological Data Analysis	CodeCode Available
BibRank: Automatic Keyphrase Extraction Platform Using~Metadata	Oct 13, 2023	ClusteringDocument Classification	CodeCode Available
An Analysis on Large Language Models in Healthcare: A Case Study of BioBERT	Oct 11, 2023	Document ClassificationInformation Retrieval	—Unverified
KoBigBird-large: Transformation of Transformer for Korean Language Understanding	Sep 19, 2023	Document ClassificationQuestion Answering	—Unverified
Beyond Document Page Classification: Design, Datasets, and Challenges	Aug 24, 2023	BenchmarkingClassification	CodeCode Available

Show:10 25 50

← PrevPage 3 of 13Next →

All datasets Reuters-21578 Cora HOC BBCSport Amazon Twitter AAPD Classic IMDb-M Recipe SciDocs (MAG)SciDocs (MeSH)

Benchmark Results

#	Model	Metric	Claimed	Verified	Status
1	ApproxRepSet	Accuracy	97.17	—	Unverified
2	REL-RWMD k-NN	Accuracy	95.61	—	Unverified
3	Orthogonalized Soft VSM	Accuracy	92.65	—	Unverified
4	MAGNET	F1	89.9	—	Unverified
5	VLAWE	F1	89.3	—	Unverified
6	KD-LSTMreg	F1	88.9	—	Unverified
7	LSTM-reg (single model)	F1	87	—	Unverified
8	SCDV-MS	F1	82.71	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	ACNet	Accuracy	83.5	—	Unverified
2	LGCN	Accuracy	83.3	—	Unverified
3	GAT	Accuracy	83	—	Unverified
4	MoNet	Accuracy	81.7	—	Unverified
5	DeepWalk	Accuracy	67.2	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	BioLinkBERT (large)	F1	88.1	—	Unverified
2	NCBI_BERT(large) (P)	F1	87.3	—	Unverified
3	SciFive-large	F1	86.08	—	Unverified
4	BioGPT	Micro F1	85.12	—	Unverified
5	PubMedBERT uncased	Micro F1	82.32	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	MPAD-path	Accuracy	99.59	—	Unverified
2	Orthogonalized Soft VSM	Accuracy	97.73	—	Unverified
3	ApproxRepSet	Accuracy	95.73	—	Unverified
4	REL-RWMD k-NN	Accuracy	95.18	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	ApproxRepSet	Accuracy	94.31	—	Unverified
2	Orthogonalized Soft VSM	Accuracy	93.42	—	Unverified
3	REL-RWMD k-NN	Accuracy	93.03	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	ApproxRepSet	Accuracy	72.6	—	Unverified
2	REL-RWMD k-NN	Accuracy	71.05	—	Unverified
3	Orthogonalized Soft VSM	Accuracy	69.21	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	KD-LSTMreg	F1	72.9	—	Unverified
2	MAGNET	F1	69.6	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	REL-RWMD k-NN	Accuracy	96.85	—	Unverified
2	ApproxRepSet	Accuracy	96.24	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	Document Classification Using Importance of Sentences	Accuracy	54.8	—	Unverified
2	LSTM-reg (single model)	Accuracy	52.8	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	ApproxRepSet	Accuracy	59.06	—	Unverified
2	REL-RWMD k-NN	Accuracy	56.8	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	SPECTER	F1 (micro)	82	—	Unverified
2	SciNCL	F1 (micro)	81.4	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	SciNCL	F1 (micro)	88.7	—	Unverified
2	SPECTER	F1 (micro)	86.4	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	ConvTextTM	Accuracy	91.28	—	Unverified
2	HDLTex	Accuracy	90.93	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	ChuLo	Accuracy	95.38	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	ChuLo	Accuracy	64.4	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	MPAD-path	Accuracy	89.81	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	BilBOWA	Accuracy	75	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	BilBOWA	Accuracy	86.5	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	HDLTex	Accuracy	86.07	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	HDLTex	Accuracy	76.58	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	KD-LSTMreg	Accuracy	69.4	—	Unverified