Document Classification

Document Classification is a procedure of assigning one or more labels to a document from a predetermined set of labels.

Source: Long-length Legal Document Classification

Papers

Recently Added Most Hyped Most Active Needs Verification Most Verified

Showing 26–50 of 641 papers

Title	Date	Tasks	Status	Hype
Keyword Assisted Topic Models	Apr 13, 2020	Document ClassificationTopic Models	CodeCode Available	1
A Comparative Study of Pretrained Language Models for Long Clinical Text	Jan 27, 2023	Clinical KnowledgeDocument Classification	CodeCode Available	1
Lbl2Vec: An Embedding-Based Approach for Unsupervised Document Retrieval on Predefined Topics	Oct 12, 2022	Document ClassificationRetrieval	CodeCode Available	1
A Corpus for Multilingual Document Classification in Eight Languages	May 24, 2018	ClassificationCross-Lingual Document Classification	CodeCode Available	1
Classification Benchmarks for Under-resourced Bengali Language based on Multichannel Convolutional-LSTM Network	Apr 11, 2020	ArticlesClassification	CodeCode Available	1
DocBERT: BERT for Document Classification	Apr 17, 2019	ClassificationDocument Classification	CodeCode Available	1
Bioformer: an efficient transformer language model for biomedical text mining	Feb 3, 2023	ArticlesDocument Classification	CodeCode Available	1
Beto, Bentz, Becas: The Surprising Cross-Lingual Effectiveness of BERT	Apr 19, 2019	Cross-Lingual NERCross-Lingual Transfer	CodeCode Available	1
BanglaBERT: Language Model Pretraining and Benchmarks for Low-Resource Language Understanding Evaluation in Bangla	Jan 1, 2021	Document ClassificationLanguage Modeling	CodeCode Available	1
Can a Fruit Fly Learn Word Embeddings?	Jan 18, 2021	Document ClassificationWord Embeddings	CodeCode Available	1
ChordMixer: A Scalable Neural Attention Model for Sequences with Different Lengths	Jun 12, 2022	ChunkingDocument Classification	CodeCode Available	1
Clinical-Longformer and Clinical-BigBird: Transformers for long clinical sequences	Jan 27, 2022	Clinical KnowledgeDocument Classification	CodeCode Available	1
ContraDoc: Understanding Self-Contradictions in Documents with Large Language Models	Nov 15, 2023	Document ClassificationQuestion Answering	CodeCode Available	1
Document Classification for COVID-19 Literature	Jun 15, 2020	ArticlesClassification	CodeCode Available	1
SPECTER: Document-level Representation Learning using Citation-informed Transformers	Apr 15, 2020	Citation PredictionDocument Classification	CodeCode Available	1
Efficient Few-shot Learning for Multi-label Classification of Scientific Documents with Many Classes	Oct 8, 2024	ArticlesClassification	CodeCode Available	1
Balancing Methods for Multi-label Text Classification with Long-Tailed Class Distribution	Sep 10, 2021	Document ClassificationMulti-Label Text Classification	CodeCode Available	1
Pre-training technique to localize medical BERT and enhance biomedical BERT	May 14, 2020	Document ClassificationTransfer Learning	CodeCode Available	1
Graph Attention Networks	Oct 30, 2017	Document ClassificationGraph Attention	CodeCode Available	1
Are Large Language Models Ready for Healthcare? A Comparative Study on Clinical Language Understanding	Apr 9, 2023	Document Classificationnamed-entity-recognition	CodeCode Available	1
ANLS* -- A Universal Document Processing Metric for Generative Large Language Models	Feb 6, 2024	Document Classification	CodeCode Available	1
A Sentence-level Hierarchical BERT Model for Document Classification with Limited Labelled Data	Jun 12, 2021	ClassificationDocument Classification	CodeCode Available	1
Aspect-based Document Similarity for Research Papers	Oct 13, 2020	Document ClassificationRecommendation Systems	CodeCode Available	1
HPI-DHC at TREC 2018 Precision Medicine Track	Nov 14, 2018	ArticlesDocument Classification	CodeCode Available	1
Benchmarking for Biomedical Natural Language Processing Tasks with a Domain Specific ALBERT	Jul 9, 2021	BenchmarkingDocument Classification	CodeCode Available	1

Show:10 25 50

← PrevPage 2 of 26Next →

All datasets Reuters-21578 Cora HOC BBCSport Amazon Twitter AAPD Classic IMDb-M Recipe SciDocs (MAG)SciDocs (MeSH)

Benchmark Results

#	Model	Metric	Claimed	Verified	Status
1	ApproxRepSet	Accuracy	97.17	—	Unverified
2	REL-RWMD k-NN	Accuracy	95.61	—	Unverified
3	Orthogonalized Soft VSM	Accuracy	92.65	—	Unverified
4	MAGNET	F1	89.9	—	Unverified
5	VLAWE	F1	89.3	—	Unverified
6	KD-LSTMreg	F1	88.9	—	Unverified
7	LSTM-reg (single model)	F1	87	—	Unverified
8	SCDV-MS	F1	82.71	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	ACNet	Accuracy	83.5	—	Unverified
2	LGCN	Accuracy	83.3	—	Unverified
3	GAT	Accuracy	83	—	Unverified
4	MoNet	Accuracy	81.7	—	Unverified
5	DeepWalk	Accuracy	67.2	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	BioLinkBERT (large)	F1	88.1	—	Unverified
2	NCBI_BERT(large) (P)	F1	87.3	—	Unverified
3	SciFive-large	F1	86.08	—	Unverified
4	BioGPT	Micro F1	85.12	—	Unverified
5	PubMedBERT uncased	Micro F1	82.32	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	MPAD-path	Accuracy	99.59	—	Unverified
2	Orthogonalized Soft VSM	Accuracy	97.73	—	Unverified
3	ApproxRepSet	Accuracy	95.73	—	Unverified
4	REL-RWMD k-NN	Accuracy	95.18	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	ApproxRepSet	Accuracy	94.31	—	Unverified
2	Orthogonalized Soft VSM	Accuracy	93.42	—	Unverified
3	REL-RWMD k-NN	Accuracy	93.03	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	ApproxRepSet	Accuracy	72.6	—	Unverified
2	REL-RWMD k-NN	Accuracy	71.05	—	Unverified
3	Orthogonalized Soft VSM	Accuracy	69.21	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	KD-LSTMreg	F1	72.9	—	Unverified
2	MAGNET	F1	69.6	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	REL-RWMD k-NN	Accuracy	96.85	—	Unverified
2	ApproxRepSet	Accuracy	96.24	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	Document Classification Using Importance of Sentences	Accuracy	54.8	—	Unverified
2	LSTM-reg (single model)	Accuracy	52.8	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	ApproxRepSet	Accuracy	59.06	—	Unverified
2	REL-RWMD k-NN	Accuracy	56.8	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	SPECTER	F1 (micro)	82	—	Unverified
2	SciNCL	F1 (micro)	81.4	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	SciNCL	F1 (micro)	88.7	—	Unverified
2	SPECTER	F1 (micro)	86.4	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	ConvTextTM	Accuracy	91.28	—	Unverified
2	HDLTex	Accuracy	90.93	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	ChuLo	Accuracy	95.38	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	ChuLo	Accuracy	64.4	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	MPAD-path	Accuracy	89.81	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	BilBOWA	Accuracy	75	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	BilBOWA	Accuracy	86.5	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	HDLTex	Accuracy	86.07	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	HDLTex	Accuracy	76.58	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	KD-LSTMreg	Accuracy	69.4	—	Unverified