Document Classification

Document Classification is a procedure of assigning one or more labels to a document from a predetermined set of labels.

Source: Long-length Legal Document Classification

Papers

Recently Added Most Hyped Most Active Needs Verification Most Verified

Showing 51–100 of 641 papers

Title	Date	Tasks	Status	Hype	Score
Improving Document Classification with Multi-Sense Embeddings	Nov 18, 2019	ClassificationClustering	CodeCode Available	1	5
Text Classification Using Label Names Only: A Language Model Self-Training Approach	Oct 14, 2020	ClassificationDocument Classification	CodeCode Available	1	5
Pre-training technique to localize medical BERT and enhance biomedical BERT	May 14, 2020	Document ClassificationTransfer Learning	CodeCode Available	1	5
Bridge Correlational Neural Networks for Multilingual Multimodal Representation Learning	Oct 13, 2015	Document ClassificationRepresentation Learning	CodeCode Available	1	5
Are Large Language Models Ready for Healthcare? A Comparative Study on Clinical Language Understanding	Apr 9, 2023	Document Classificationnamed-entity-recognition	CodeCode Available	1	5
A Comparative Study of Pretrained Language Models for Long Clinical Text	Jan 27, 2023	Clinical KnowledgeDocument Classification	CodeCode Available	1	5
GeoGalactica: A Scientific Large Language Model in Geoscience	Dec 31, 2023	Document ClassificationGeneral Knowledge	CodeCode Available	1	5
ANLS* -- A Universal Document Processing Metric for Generative Large Language Models	Feb 6, 2024	Document Classification	CodeCode Available	1	5
Hierarchical Metadata-Aware Document Categorization under Weak Supervision	Oct 26, 2020	Data AugmentationDocument Classification	CodeCode Available	1	5
German's Next Language Model	Oct 21, 2020	BenchmarkingDocument Classification	CodeCode Available	1	5
A Sentence-level Hierarchical BERT Model for Document Classification with Limited Labelled Data	Jun 12, 2021	ClassificationDocument Classification	CodeCode Available	1	5
Graph Attention Networks	Oct 30, 2017	Document ClassificationGraph Attention	CodeCode Available	1	5
Bioformer: an efficient transformer language model for biomedical text mining	Feb 3, 2023	ArticlesDocument Classification	CodeCode Available	1	5
Aspect-based Document Similarity for Research Papers	Oct 13, 2020	Document ClassificationRecommendation Systems	CodeCode Available	1	5
Three-level Hierarchical Transformer Networks for Long-sequence and Multiple Clinical Documents Classification	Apr 17, 2021	Document ClassificationGeneral Classification	CodeCode Available	1	5
Classification Benchmarks for Under-resourced Bengali Language based on Multichannel Convolutional-LSTM Network	Apr 11, 2020	ArticlesClassification	CodeCode Available	1	5
Can a Fruit Fly Learn Word Embeddings?	Jan 18, 2021	Document ClassificationWord Embeddings	CodeCode Available	1	5
Hierarchical Transformers for Long Document Classification	Oct 23, 2019	ClassificationDocument Classification	CodeCode Available	1	5
HPI-DHC at TREC 2018 Precision Medicine Track	Nov 14, 2018	ArticlesDocument Classification	CodeCode Available	1	5
ChordMixer: A Scalable Neural Attention Model for Sequences with Different Lengths	Jun 12, 2022	ChunkingDocument Classification	CodeCode Available	1	5
ContraDoc: Understanding Self-Contradictions in Documents with Large Language Models	Nov 15, 2023	Document ClassificationQuestion Answering	CodeCode Available	1	5
Clinical-Longformer and Clinical-BigBird: Transformers for long clinical sequences	Jan 27, 2022	Clinical KnowledgeDocument Classification	CodeCode Available	1	5
L3Cube-IndicNews: News-based Short Text and Long Document Classification Datasets in Indic Languages	Jan 4, 2024	ArticlesClassification	CodeCode Available	1	5
Benchmarking large language models for biomedical natural language processing applications and recommendations	May 10, 2023	BenchmarkingDocument Classification	CodeCode Available	1	5
Data Programming by Demonstration: A Framework for Interactively Learning Labeling Functions	Sep 3, 2020	Document Classification	CodeCode Available	1	5
Improving Language Understanding by Generative Pre-Training	Jun 11, 2018	Cloze TestDocument Classification	CodeCode Available	1	5
MAGNET: Multi-Label Text Classification using Attention-based Graph Neural Network	Feb 24, 2020	Document ClassificationGeneral Classification	CodeCode Available	1	5
Massively Multilingual Sentence Embeddings for Zero-Shot Cross-Lingual Transfer and Beyond	Dec 26, 2018	Cross-Lingual Bitext MiningCross-Lingual Document Classification	CodeCode Available	1	5
MultiEURLEX - A multi-lingual and multi-label legal document classification dataset for zero-shot cross-lingual transfer	Nov 1, 2021	Cross-Lingual TransferDocument Classification	CodeCode Available	1	5
MultiFiT: Efficient Multi-lingual Language Model Fine-tuning	Sep 10, 2019	Cross-Lingual Document ClassificationDocument Classification	CodeCode Available	1	5
Multilingual and cross-lingual document classification: A meta-learning approach	Jan 27, 2021	Cross-Lingual Document ClassificationDocument Classification	CodeCode Available	1	5
Multilingual Twitter Corpus and Baselines for Evaluating Demographic Bias in Hate Speech Recognition	Feb 24, 2020	Document ClassificationFairness	CodeCode Available	1	5
TagRuler: Interactive Tool for Span-Level Data Programming by Demonstration	Jun 24, 2021	Active LearningDocument Classification	CodeCode Available	1	5
DocXClassifier: High Performance Explainable Deep Network for Document Image Classification	Mar 17, 2022	ClassificationData Augmentation	CodeCode Available	1	5
SPECTER: Document-level Representation Learning using Citation-informed Transformers	Apr 15, 2020	Citation PredictionDocument Classification	CodeCode Available	1	5
Glyce: Glyph-vectors for Chinese Character Representations	Jan 29, 2019	Chinese Dependency ParsingChinese Named Entity Recognition	CodeCode Available	0	5
GloVe: Global Vectors for Word Representation	Oct 1, 2014	Document ClassificationInformation Retrieval	CodeCode Available	0	5
GVdoc: Graph-based Visual Document Classification	May 26, 2023	ClassificationDocument Classification	CodeCode Available	0	5
A Confidence-Calibrated MOBA Game Winner Predictor	Jun 28, 2020	Document Classification	CodeCode Available	0	5
A Robust Hybrid Approach for Textual Document Classification	Sep 12, 2019	BIG-bench Machine LearningClassification	CodeCode Available	0	5
Generative Topic Embedding: a Continuous Representation of Documents (Extended Version with Proofs)	Jun 9, 2016	Document ClassificationVariational Inference	CodeCode Available	0	5
Geometric deep learning on graphs and manifolds using mixture model CNNs	Nov 25, 2016	Deep LearningDocument Classification	CodeCode Available	0	5
AraDIC: Arabic Document Classification using Image-Based Character Embeddings and Class-Balanced Loss	Jun 20, 2020	ClassificationDeep Learning	CodeCode Available	0	5
Exploring Topic Coherence over Many Models and Many Topics	Jul 1, 2012	Document ClassificationInformation Retrieval	CodeCode Available	0	5
Corpus-level and Concept-based Explanations for Interpretable Document Classification	Apr 24, 2020	ClassificationDecision Making	CodeCode Available	0	5
FLAG: Financial Long Document Classification via AMR-based GNN	Oct 2, 2024	Abstract Meaning RepresentationDocument Classification	CodeCode Available	0	5
Generalized Sobolev Transport for Probability Measures on a Graph	Feb 7, 2024	Document ClassificationTopological Data Analysis	CodeCode Available	0	5
A La Carte Embedding: Cheap but Effective Induction of Semantic Feature Vectors	May 14, 2018	Document ClassificationDomain Adaptation	CodeCode Available	0	5
BilBOWA: Fast Bilingual Distributed Representations without Word Alignments	Oct 9, 2014	Cross-Lingual Document ClassificationDocument Classification	CodeCode Available	0	5
Anytime Active Learning	Jul 27, 2014	Active LearningDocument Classification	CodeCode Available	0	5

Show:10 25 50

← PrevPage 2 of 13Next →

All datasets Reuters-21578 Cora HOC BBCSport Amazon Twitter AAPD Classic IMDb-M Recipe SciDocs (MAG)SciDocs (MeSH)

Benchmark Results

#	Model	Metric	Claimed	Verified	Status
1	ApproxRepSet	Accuracy	97.17	—	Unverified
2	REL-RWMD k-NN	Accuracy	95.61	—	Unverified
3	Orthogonalized Soft VSM	Accuracy	92.65	—	Unverified
4	MAGNET	F1	89.9	—	Unverified
5	VLAWE	F1	89.3	—	Unverified
6	KD-LSTMreg	F1	88.9	—	Unverified
7	LSTM-reg (single model)	F1	87	—	Unverified
8	SCDV-MS	F1	82.71	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	ACNet	Accuracy	83.5	—	Unverified
2	LGCN	Accuracy	83.3	—	Unverified
3	GAT	Accuracy	83	—	Unverified
4	MoNet	Accuracy	81.7	—	Unverified
5	DeepWalk	Accuracy	67.2	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	BioLinkBERT (large)	F1	88.1	—	Unverified
2	NCBI_BERT(large) (P)	F1	87.3	—	Unverified
3	SciFive-large	F1	86.08	—	Unverified
4	BioGPT	Micro F1	85.12	—	Unverified
5	PubMedBERT uncased	Micro F1	82.32	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	MPAD-path	Accuracy	99.59	—	Unverified
2	Orthogonalized Soft VSM	Accuracy	97.73	—	Unverified
3	ApproxRepSet	Accuracy	95.73	—	Unverified
4	REL-RWMD k-NN	Accuracy	95.18	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	ApproxRepSet	Accuracy	94.31	—	Unverified
2	Orthogonalized Soft VSM	Accuracy	93.42	—	Unverified
3	REL-RWMD k-NN	Accuracy	93.03	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	ApproxRepSet	Accuracy	72.6	—	Unverified
2	REL-RWMD k-NN	Accuracy	71.05	—	Unverified
3	Orthogonalized Soft VSM	Accuracy	69.21	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	KD-LSTMreg	F1	72.9	—	Unverified
2	MAGNET	F1	69.6	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	REL-RWMD k-NN	Accuracy	96.85	—	Unverified
2	ApproxRepSet	Accuracy	96.24	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	Document Classification Using Importance of Sentences	Accuracy	54.8	—	Unverified
2	LSTM-reg (single model)	Accuracy	52.8	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	ApproxRepSet	Accuracy	59.06	—	Unverified
2	REL-RWMD k-NN	Accuracy	56.8	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	SPECTER	F1 (micro)	82	—	Unverified
2	SciNCL	F1 (micro)	81.4	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	SciNCL	F1 (micro)	88.7	—	Unverified
2	SPECTER	F1 (micro)	86.4	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	ConvTextTM	Accuracy	91.28	—	Unverified
2	HDLTex	Accuracy	90.93	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	ChuLo	Accuracy	95.38	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	ChuLo	Accuracy	64.4	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	MPAD-path	Accuracy	89.81	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	BilBOWA	Accuracy	75	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	BilBOWA	Accuracy	86.5	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	HDLTex	Accuracy	86.07	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	HDLTex	Accuracy	76.58	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	KD-LSTMreg	Accuracy	69.4	—	Unverified