Text Classification

Text Classification is the task of assigning a sentence or document an appropriate category. The categories depend on the chosen dataset and can range from topics.

Text Classification problems include emotion classification, news classification, citation intent classification, among others. Benchmark datasets for evaluating text classification capabilities include GLUE, AGNews, among others.

In recent years, deep learning techniques like XLNet and RoBERTa have attained some of the biggest performance jumps for text classification problems.

( Image credit: Text Classification Algorithms: A Survey )

Papers

Recently Added Most Hyped Most Active Needs Verification Most Verified

Showing 3301–3350 of 3635 papers

Title	Date	Tasks	Status
Attention-based LSTM Network for Cross-Lingual Sentiment Classification	Nov 1, 2016	ClassificationCross-Lingual Sentiment Classification	—Unverified
Bag of What? Simple Noun Phrase Extraction for Text Analysis	Nov 1, 2016	Text Classification	—Unverified
Regularizing Text Categorization with Clusters of Words	Nov 1, 2016	Language ModelingLanguage Modelling	—Unverified
Recurrent Residual Learning for Sequence Classification	Nov 1, 2016	ClassificationGeneral Classification	—Unverified
A Graph Degeneracy-based Approach to Keyword Extraction	Nov 1, 2016	Document ClassificationInformation Retrieval	CodeCode Available
Emotion Distribution Learning from Texts	Nov 1, 2016	Emotion ClassificationEmotion Recognition	—Unverified
Neural Sentiment Classification with User and Product Attention	Nov 1, 2016	ClassificationFeature Engineering	CodeCode Available
Weakly Supervised Tweet Stance Classification by Relational Bootstrapping	Nov 1, 2016	ClassificationGeneral Classification	—Unverified
Deep Multi-Task Learning with Shared Memory for Text Classification	Nov 1, 2016	ClassificationGeneral Classification	—Unverified
Simultaneous Learning of Trees and Representations for Extreme Classification and Density Estimation	Oct 14, 2016	ClassificationDensity Estimation	—Unverified
Supervised Term Weighting Metrics for Sentiment Analysis in Short Text	Oct 10, 2016	General ClassificationInformation Retrieval	—Unverified
以多重表示選擇文章分類的樣本(Using Multiple Representations to Select Instances for Text Classification)[In Chinese]	Oct 1, 2016	text-classificationText Classification	—Unverified
Modeling Language Change in Historical Corpora: The Case of Portuguese	Sep 30, 2016	General ClassificationPOS	—Unverified
A Hackathon for Classical Tibetan	Sep 27, 2016	General Classificationtext-classification	—Unverified
Deep Multi-Task Learning with Shared Memory	Sep 23, 2016	General ClassificationMulti-Task Learning	—Unverified
Unsupervised Identification of Translationese	Sep 11, 2016	ClusteringGeneral Classification	—Unverified
Harassment detection: a benchmark on the #HackHarassment dataset	Sep 9, 2016	BIG-bench Machine Learningtext-classification	—Unverified
On Horizontal and Vertical Separation in Hierarchical Text Classification	Sep 2, 2016	ClassificationGeneral Classification	—Unverified
Deriving Players \& Themes in the Regesta Imperii using SVMs and Neural Networks	Aug 1, 2016	Text Classification	—Unverified
Cross-domain Text Classification with Multiple Domains and Disparate Label Sets	Aug 1, 2016	Cross-Domain Text ClassificationGeneral Classification	—Unverified
ALTO: Active Learning with Topic Overviews for Speeding Label Induction and Document Labeling	Aug 1, 2016	Active LearningText Classification	—Unverified
Brave New World: Uncovering Topical Dynamics in the ACL Anthology Reference Corpus Using Term Life Cycle Information	Aug 1, 2016	Text Classification	—Unverified
Learning Word Importance with the Neural Bag-of-Words Model	Aug 1, 2016	Representation LearningSentiment Analysis	CodeCode Available
Bilingual Segmented Topic Model	Aug 1, 2016	modelText Classification	—Unverified
Applying deep learning on electronic health records in Swedish to predict healthcare-associated infections	Aug 1, 2016	Text Classification	—Unverified
The ILSP/ARC submission to the WMT 2016 Bilingual Document Alignment Shared Task	Aug 1, 2016	ARCLanguage Identification	—Unverified
CSE: Conceptual Sentence Embeddings based on Attention Model	Aug 1, 2016	Information RetrievalSentence	—Unverified
Jointly Learning to Embed and Predict with Multiple Languages	Aug 1, 2016	Cross-Lingual TransferLanguage Modeling	—Unverified
A Personalized Markov Clustering and Deep Learning Approach for Arabic Text Categorization	Aug 1, 2016	ClusteringGeneral Classification	—Unverified
A Domain Adaptation Regularization for Denoising Autoencoders	Aug 1, 2016	DenoisingDocument Ranking	—Unverified
Learning Structured Predictors from Bandit Feedback for Interactive NLP	Aug 1, 2016	Machine TranslationStochastic Optimization	—Unverified
Supersense Embeddings: A Unified Model for Supersense Interpretation, Prediction, and Utilization	Aug 1, 2016	Dependency ParsingDocument Classification	—Unverified
A Constituent Syntactic Parse Tree Based Discourse Parser	Aug 1, 2016	Question AnsweringText Classification	—Unverified
Modelling the Combination of Generic and Target Domain Embeddings in a Convolutional Neural Network for Sentence Classification	Aug 1, 2016	ChunkingGeneral Classification	—Unverified
Deep Fusion LSTMs for Text Semantic Matching	Aug 1, 2016	Machine TranslationQuestion Answering	—Unverified
Identifying Depression on Twitter	Jul 25, 2016	General Classificationtext-classification	—Unverified
Opinion Mining in Online Reviews About Distance Education Programs	Jul 21, 2016	General ClassificationOpinion Mining	—Unverified
Actionable and Political Text Classification using Word Embeddings and LSTM	Jul 8, 2016	ClassificationGeneral Classification	—Unverified
Interactive Semantic Featuring for Text Classification	Jun 24, 2016	ClassificationGeneral Classification	—Unverified
An empirical study on large scale text classification with skip-gram embeddings	Jun 21, 2016	ClassificationGeneral Classification	—Unverified
Optimization Methods for Large-Scale Machine Learning	Jun 15, 2016	BIG-bench Machine LearningText Classification	CodeCode Available
Active Discriminative Text Representation Learning	Jun 14, 2016	Active LearningClassification	—Unverified
e-Commerce product classification: our participation at cDiscount 2015 challenge	Jun 9, 2016	General Classificationtext-classification	—Unverified
Large scale biomedical texts classification: a kNN and an ESA-based approaches	Jun 9, 2016	ClassificationGeneral Classification	—Unverified
Very Deep Convolutional Networks for Text Classification	Jun 6, 2016	General ClassificationText Classification	CodeCode Available
PD-Sparse : A Primal and Dual Sparse Approach to Extreme Multiclass and Multilabel Classification	Jun 1, 2016	ClassificationGeneral Classification	CodeCode Available
Automatic Triage of Mental Health Forum Posts	Jun 1, 2016	Sentiment AnalysisText Classification	—Unverified
Bilingual Word Embeddings from Parallel and Non-parallel Corpora for Cross-Language Text Classification	Jun 1, 2016	Dependency ParsingGeneral Classification	—Unverified
Automatic Triage of Mental Health Online Forum Posts: CLPsych 2016 System Description	Jun 1, 2016	Text Classification	—Unverified
Scalable Statistical Relational Learning for NLP	Jun 1, 2016	Coreference ResolutionRelational Reasoning	—Unverified

Show:10 25 50

← PrevPage 67 of 73Next →

All datasets MTEB AG News DBpedia R8 TREC-6 20NEWS UK Key Stage Readability Ohsumed Yahoo! Answers MR Climabench NewsDiscourse

Benchmark Results

#	Model	Metric	Claimed	Verified	Status
1	ST5-XXL	Accuracy	73.42	—	Unverified
2	ST5-XL	Accuracy	72.84	—	Unverified
3	ST5-Large	Accuracy	72.31	—	Unverified
4	Ada Similarity	Accuracy	70.44	—	Unverified
5	SGPT-5.8B-nli	Accuracy	70.14	—	Unverified
6	ST5-Base	Accuracy	69.81	—	Unverified
7	SGPT-5.8B-msmarco	Accuracy	68.13	—	Unverified
8	MPNet-multilingual	Accuracy	67.91	—	Unverified
9	GTR-XXL	Accuracy	67.41	—	Unverified
10	SimCSE-BERT-sup	Accuracy	67.32	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	Mistral-Small-24B + CAPO	Error	15.7	—	Unverified
2	ToWE-SG	Error	14	—	Unverified
3	Qwen2.5-32B + CAPO	Error	12.93	—	Unverified
4	Llama-3.3-70B + CAPO	Error	11.2	—	Unverified
5	Seq2CNN with GWS(50)	Error	9.64	—	Unverified
6	Char-level CNN	Error	9.51	—	Unverified
7	SVDCNN	Error	9.45	—	Unverified
8	VDCN	Error	8.67	—	Unverified
9	Balanced+bi-leaf-RNN	Error	7.9	—	Unverified
10	CCCapsNet	Error	7.61	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	Seq2CNN(50)	Error	2.77	—	Unverified
2	Char-level CNN	Error	1.55	—	Unverified
3	SWEM-concat	Error	1.43	—	Unverified
4	FastText	Error	1.4	—	Unverified
5	VDCN	Error	1.29	—	Unverified
6	CCCapsNet	Error	1.28	—	Unverified
7	Balanced+bi-leaf-RNN	Error	1.2	—	Unverified
8	BERT large UDA	Error	1.09	—	Unverified
9	M-ACNN	Error	1.07	—	Unverified
10	EXAM	Error	1	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	DeBERTa	Accuracy	98.45	—	Unverified
2	C-BERT (ESGNN + BERT)	Accuracy	98.28	—	Unverified
3	ESGNN	Accuracy	98.23	—	Unverified
4	RoBERTaGCN	Accuracy	98.2	—	Unverified
5	BERT	Accuracy	98.17	—	Unverified
6	SGNN	Accuracy	98.09	—	Unverified
7	ERNIE 2.0	Accuracy	98.04	—	Unverified
8	DistilBERT	Accuracy	97.98	—	Unverified
9	Our Model*	Accuracy	97.8	—	Unverified
10	ALBERTv2	Accuracy	97.62	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	TM-Glove	Error	9.96	—	Unverified
2	byte mLSTM7	Error	9.6	—	Unverified
3	SWEM-aver	Error	7.8	—	Unverified
4	DELTA (CNN)	Error	7.8	—	Unverified
5	Capsule-B	Error	7.2	—	Unverified
6	STM+TSED+PT+2L	Error	7.04	—	Unverified
7	GRU-RNN-GLOVE	Error	7	—	Unverified
8	MPAD-path	Error	6.2	—	Unverified
9	VLAWE	Error	5.8	—	Unverified
10	C-LSTM	Error	5.4	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	LinearSVM+TFIDF	Accuracy	93	—	Unverified
2	RoBERTaGCN	Accuracy	89.5	—	Unverified
3	SSGC	Accuracy	88.6	—	Unverified
4	SGC	Accuracy	88.5	—	Unverified
5	SGCN	Accuracy	88.5	—	Unverified
6	RMDL (15 RDLs)	Accuracy	87.91	—	Unverified
7	Sparse Tensor Classifier	Accuracy	87.3	—	Unverified
8	GraphStar	Accuracy	86.9	—	Unverified
9	NABoE-full	Accuracy	86.8	—	Unverified
10	Text GCN	Accuracy	86.34	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	ELECTRA + ANN	F1	99.6	—	Unverified
2	ERNIE + ANN	F1	99.4	—	Unverified
3	XLNet + ANN	F1	99.2	—	Unverified
4	RoBERTa + ANN	F1	98.7	—	Unverified
5	Longformer + ANN	F1	93.9	—	Unverified
6	BERT + ANN	F1	90.5	—	Unverified
7	ALBERT + ANN	F1	79.7	—	Unverified
8	BERT	F1	75	—	Unverified
9	DistilBERT	F1	74.4	—	Unverified
10	XLNet	F1	74	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	RoBERTaGCN	Accuracy	72.8	—	Unverified
2	Our Model*	Accuracy	69.4	—	Unverified
3	SSGC	Accuracy	68.5	—	Unverified
4	SGC	Accuracy	68.5	—	Unverified
5	SGCN	Accuracy	68.5	—	Unverified
6	Text GCN	Accuracy	68.36	—	Unverified
7	GraphStar	Accuracy	64.2	—	Unverified
8	ApproxRepSet	Accuracy	64.06	—	Unverified
9	REL-RWMD k-NN	Accuracy	58.74	—	Unverified
10	CNN+Lowercased	Accuracy	36.2	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	BERT-ITPT-FiT	Accuracy	77.62	—	Unverified
2	DRNN	Accuracy	76.26	—	Unverified
3	DELTA (HAN)	Accuracy	75.1	—	Unverified
4	EXAM	Accuracy	74.8	—	Unverified
5	DNC+CUW	Accuracy	74.3	—	Unverified
6	ULMFiT (Small data)	Accuracy	74.3	—	Unverified
7	CCCapsNet	Accuracy	73.85	—	Unverified
8	SWEM-concat	Accuracy	73.53	—	Unverified
9	FastText	Accuracy	72.3	—	Unverified
10	Seq2CNN(50)	Accuracy	55.39	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	DeBERTa	Accuracy	90.21	—	Unverified
2	RoBERTaGCN	Accuracy	89.7	—	Unverified
3	ERNIE 2.0 (optimized)	Accuracy	89.53	—	Unverified
4	RoBERTa	Accuracy	89.42	—	Unverified
5	ERNIE 2.0	Accuracy	88.97	—	Unverified
6	BERT	Accuracy	86.94	—	Unverified
7	ALBERTv2	Accuracy	86.02	—	Unverified
8	DistilBERT	Accuracy	85.31	—	Unverified
9	SSGC	Accuracy	76.7	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	CliReBERT (P0L3/clirebert_clirevocab_uncased)	Evaluation Macro F1	0.65	—	Unverified
2	ClimateBERT (climatebert/distilroberta-base-climate-f)	Evaluation Macro F1	0.64	—	Unverified
3	BERT (google-bert/bert-base-uncased)	Evaluation Macro F1	0.61	—	Unverified
4	CliSciBERT (P0L3/cliscibert_scivocab_uncased)	Evaluation Macro F1	0.61	—	Unverified
5	SciBERT (allenai/scibert_scivocab_cased)	Evaluation Macro F1	0.59	—	Unverified
6	DistilRoBERTa (distilbert/distilroberta-base)	Evaluation Macro F1	0.58	—	Unverified
7	SciClimateBERT (P0L3/sciclimatebert)	Evaluation Macro F1	0.58	—	Unverified
8	RoBERTa (FacebookAI/roberta-base)	Evaluation Macro F1	0.57	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	Human (Post-Rec.) (Spangher et al., 2021)	macro F1	73.69	—	Unverified
2	MT-Mac (Spangher et al., 2021)	macro F1	63.46	—	Unverified
3	MT-Mic (Spangher et al., 2021)	macro F1	61.89	—	Unverified
4	RL-IP/TT (Choubey et al., 2021)	macro F1	57	—	Unverified
5	Document LSTM + Document encoding (Choubey et al., 2020)	macro F1	54.4	—	Unverified
6	CRF Fine-grained (Choubey et al., 2020)	macro F1	52.9	—	Unverified
7	Human (Blind) (Spangher et al., 2021)	macro F1	46.18	—	Unverified
8	Feature-based (SVM) (Choubey et al., 2020)	macro F1	38.3	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	1-6 BertGCN	Accuracy	96.6	—	Unverified
2	GraphStar	Accuracy	95	—	Unverified
3	Our Model*	Accuracy	94.6	—	Unverified
4	SSGC	Accuracy	94.5	—	Unverified
5	SGC	Accuracy	94	—	Unverified
6	SGCN	Accuracy	94	—	Unverified
7	Text GCN	Accuracy	93.56	—	Unverified
8	TM-Glove	Accuracy	89.14	—	Unverified