Document Classification

Document Classification is a procedure of assigning one or more labels to a document from a predetermined set of labels.

Source: Long-length Legal Document Classification

Papers

Recently Added Most Hyped Most Active Needs Verification Most Verified

Showing 1–50 of 641 papers

Title	Date	Tasks	Status	Hype	Score
FlashAttention: Fast and Memory-Efficient Exact Attention with IO-Awareness	May 27, 2022	16k4k	CodeCode Available	6	5
BioGPT: Generative Pre-trained Transformer for Biomedical Text Generation and Mining	Oct 19, 2022	Document ClassificationLanguage Modelling	CodeCode Available	4	5
Pre-Training with Whole Word Masking for Chinese BERT	Jun 19, 2019	Document ClassificationGeneral Classification	CodeCode Available	3	5
DocGenome: An Open Large-scale Scientific Document Benchmark for Training and Testing Multi-modal Large Language Models	Jun 17, 2024	Document ClassificationVisual Grounding	CodeCode Available	3	5
LinkBERT: Pretraining Language Models with Document Links	Mar 29, 2022	Document ClassificationLanguage Modeling	CodeCode Available	2	5
One Configuration to Rule Them All? Towards Hyperparameter Transfer in Topic Models using Multi-Objective Bayesian Optimization	Feb 15, 2022	AllBayesian Optimization	CodeCode Available	2	5
Visually Guided Generative Text-Layout Pre-training for Document Intelligence	Mar 25, 2024	Document Classificationdocument understanding	CodeCode Available	2	5
MAGNET: Multi-Label Text Classification using Attention-based Graph Neural Network	Feb 24, 2020	Document ClassificationGeneral Classification	CodeCode Available	1	5
Lbl2Vec: An Embedding-Based Approach for Unsupervised Document Retrieval on Predefined Topics	Oct 12, 2022	Document ClassificationRetrieval	CodeCode Available	1	5
Massively Multilingual Sentence Embeddings for Zero-Shot Cross-Lingual Transfer and Beyond	Dec 26, 2018	Cross-Lingual Bitext MiningCross-Lingual Document Classification	CodeCode Available	1	5
Keyword Assisted Topic Models	Apr 13, 2020	Document ClassificationTopic Models	CodeCode Available	1	5
Benchmarking large language models for biomedical natural language processing applications and recommendations	May 10, 2023	BenchmarkingDocument Classification	CodeCode Available	1	5
A Comparative Study of Pretrained Language Models for Long Clinical Text	Jan 27, 2023	Clinical KnowledgeDocument Classification	CodeCode Available	1	5
LSD-C: Linearly Separable Deep Clusters	Jun 17, 2020	ClusteringData Augmentation	CodeCode Available	1	5
Hierarchical Transformers for Long Document Classification	Oct 23, 2019	ClassificationDocument Classification	CodeCode Available	1	5
German's Next Language Model	Oct 21, 2020	BenchmarkingDocument Classification	CodeCode Available	1	5
HiPool: Modeling Long Documents Using Graph Neural Networks	May 5, 2023	Document ClassificationSentence	CodeCode Available	1	5
Data Programming by Demonstration: A Framework for Interactively Learning Labeling Functions	Sep 3, 2020	Document Classification	CodeCode Available	1	5
Efficient Few-shot Learning for Multi-label Classification of Scientific Documents with Many Classes	Oct 8, 2024	ArticlesClassification	CodeCode Available	1	5
GeoGalactica: A Scientific Large Language Model in Geoscience	Dec 31, 2023	Document ClassificationGeneral Knowledge	CodeCode Available	1	5
HEAL: Hierarchical Embedding Alignment Loss for Improved Retrieval and Representation Learning	Dec 5, 2024	Contrastive LearningDocument Classification	CodeCode Available	1	5
Three-level Hierarchical Transformer Networks for Long-sequence and Multiple Clinical Documents Classification	Apr 17, 2021	Document ClassificationGeneral Classification	CodeCode Available	1	5
Improving accuracy and speeding up Document Image Classification through parallel systems	Jun 16, 2020	Document Classificationdocument-image-classification	CodeCode Available	1	5
Improving Language Understanding by Generative Pre-Training	Jun 11, 2018	Cloze TestDocument Classification	CodeCode Available	1	5
Can a Fruit Fly Learn Word Embeddings?	Jan 18, 2021	Document ClassificationWord Embeddings	CodeCode Available	1	5
L3Cube-IndicNews: News-based Short Text and Long Document Classification Datasets in Indic Languages	Jan 4, 2024	ArticlesClassification	CodeCode Available	1	5
ContraDoc: Understanding Self-Contradictions in Documents with Large Language Models	Nov 15, 2023	Document ClassificationQuestion Answering	CodeCode Available	1	5
LDRNet: Enabling Real-time Document Localization on Mobile Devices	Jun 5, 2022	Document Classification	CodeCode Available	1	5
A Corpus for Multilingual Document Classification in Eight Languages	May 24, 2018	ClassificationCross-Lingual Document Classification	CodeCode Available	1	5
ChordMixer: A Scalable Neural Attention Model for Sequences with Different Lengths	Jun 12, 2022	ChunkingDocument Classification	CodeCode Available	1	5
Document Classification for COVID-19 Literature	Jun 15, 2020	ArticlesClassification	CodeCode Available	1	5
A Sentence-level Hierarchical BERT Model for Document Classification with Limited Labelled Data	Jun 12, 2021	ClassificationDocument Classification	CodeCode Available	1	5
Aspect-based Document Similarity for Research Papers	Oct 13, 2020	Document ClassificationRecommendation Systems	CodeCode Available	1	5
Bioformer: an efficient transformer language model for biomedical text mining	Feb 3, 2023	ArticlesDocument Classification	CodeCode Available	1	5
Balancing Methods for Multi-label Text Classification with Long-Tailed Class Distribution	Sep 10, 2021	Document ClassificationMulti-Label Text Classification	CodeCode Available	1	5
Clinical-Longformer and Clinical-BigBird: Transformers for long clinical sequences	Jan 27, 2022	Clinical KnowledgeDocument Classification	CodeCode Available	1	5
Are Large Language Models Ready for Healthcare? A Comparative Study on Clinical Language Understanding	Apr 9, 2023	Document Classificationnamed-entity-recognition	CodeCode Available	1	5
DocBERT: BERT for Document Classification	Apr 17, 2019	ClassificationDocument Classification	CodeCode Available	1	5
Beto, Bentz, Becas: The Surprising Cross-Lingual Effectiveness of BERT	Apr 19, 2019	Cross-Lingual NERCross-Lingual Transfer	CodeCode Available	1	5
DocXClassifier: High Performance Explainable Deep Network for Document Image Classification	Mar 17, 2022	ClassificationData Augmentation	CodeCode Available	1	5
Benchmarking for Biomedical Natural Language Processing Tasks with a Domain Specific ALBERT	Jul 9, 2021	BenchmarkingDocument Classification	CodeCode Available	1	5
Pre-training technique to localize medical BERT and enhance biomedical BERT	May 14, 2020	Document ClassificationTransfer Learning	CodeCode Available	1	5
Graph Attention Networks	Oct 30, 2017	Document ClassificationGraph Attention	CodeCode Available	1	5
HDLTex: Hierarchical Deep Learning for Text Classification	Sep 24, 2017	ClassificationDeep Learning	CodeCode Available	1	5
Hierarchical Metadata-Aware Document Categorization under Weak Supervision	Oct 26, 2020	Data AugmentationDocument Classification	CodeCode Available	1	5
ANLS* -- A Universal Document Processing Metric for Generative Large Language Models	Feb 6, 2024	Document Classification	CodeCode Available	1	5
Bridge Correlational Neural Networks for Multilingual Multimodal Representation Learning	Oct 13, 2015	Document ClassificationRepresentation Learning	CodeCode Available	1	5
BanglaBERT: Language Model Pretraining and Benchmarks for Low-Resource Language Understanding Evaluation in Bangla	Jan 1, 2021	Document ClassificationLanguage Modeling	CodeCode Available	1	5
Improving Document Classification with Multi-Sense Embeddings	Nov 18, 2019	ClassificationClustering	CodeCode Available	1	5
Classification Benchmarks for Under-resourced Bengali Language based on Multichannel Convolutional-LSTM Network	Apr 11, 2020	ArticlesClassification	CodeCode Available	1	5

Show:10 25 50

← PrevPage 1 of 13Next →

All datasets Reuters-21578 Cora HOC BBCSport Amazon Twitter AAPD Classic IMDb-M Recipe SciDocs (MAG)SciDocs (MeSH)

Benchmark Results

#	Model	Metric	Claimed	Verified	Status
1	ApproxRepSet	Accuracy	97.17	—	Unverified
2	REL-RWMD k-NN	Accuracy	95.61	—	Unverified
3	Orthogonalized Soft VSM	Accuracy	92.65	—	Unverified
4	MAGNET	F1	89.9	—	Unverified
5	VLAWE	F1	89.3	—	Unverified
6	KD-LSTMreg	F1	88.9	—	Unverified
7	LSTM-reg (single model)	F1	87	—	Unverified
8	SCDV-MS	F1	82.71	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	ACNet	Accuracy	83.5	—	Unverified
2	LGCN	Accuracy	83.3	—	Unverified
3	GAT	Accuracy	83	—	Unverified
4	MoNet	Accuracy	81.7	—	Unverified
5	DeepWalk	Accuracy	67.2	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	BioLinkBERT (large)	F1	88.1	—	Unverified
2	NCBI_BERT(large) (P)	F1	87.3	—	Unverified
3	SciFive-large	F1	86.08	—	Unverified
4	BioGPT	Micro F1	85.12	—	Unverified
5	PubMedBERT uncased	Micro F1	82.32	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	MPAD-path	Accuracy	99.59	—	Unverified
2	Orthogonalized Soft VSM	Accuracy	97.73	—	Unverified
3	ApproxRepSet	Accuracy	95.73	—	Unverified
4	REL-RWMD k-NN	Accuracy	95.18	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	ApproxRepSet	Accuracy	94.31	—	Unverified
2	Orthogonalized Soft VSM	Accuracy	93.42	—	Unverified
3	REL-RWMD k-NN	Accuracy	93.03	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	ApproxRepSet	Accuracy	72.6	—	Unverified
2	REL-RWMD k-NN	Accuracy	71.05	—	Unverified
3	Orthogonalized Soft VSM	Accuracy	69.21	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	KD-LSTMreg	F1	72.9	—	Unverified
2	MAGNET	F1	69.6	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	REL-RWMD k-NN	Accuracy	96.85	—	Unverified
2	ApproxRepSet	Accuracy	96.24	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	Document Classification Using Importance of Sentences	Accuracy	54.8	—	Unverified
2	LSTM-reg (single model)	Accuracy	52.8	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	ApproxRepSet	Accuracy	59.06	—	Unverified
2	REL-RWMD k-NN	Accuracy	56.8	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	SPECTER	F1 (micro)	82	—	Unverified
2	SciNCL	F1 (micro)	81.4	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	SciNCL	F1 (micro)	88.7	—	Unverified
2	SPECTER	F1 (micro)	86.4	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	ConvTextTM	Accuracy	91.28	—	Unverified
2	HDLTex	Accuracy	90.93	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	ChuLo	Accuracy	95.38	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	ChuLo	Accuracy	64.4	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	MPAD-path	Accuracy	89.81	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	BilBOWA	Accuracy	75	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	BilBOWA	Accuracy	86.5	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	HDLTex	Accuracy	86.07	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	HDLTex	Accuracy	76.58	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	KD-LSTMreg	Accuracy	69.4	—	Unverified