Text Classification

Text Classification is the task of assigning a sentence or document an appropriate category. The categories depend on the chosen dataset and can range from topics.

Text Classification problems include emotion classification, news classification, citation intent classification, among others. Benchmark datasets for evaluating text classification capabilities include GLUE, AGNews, among others.

In recent years, deep learning techniques like XLNet and RoBERTa have attained some of the biggest performance jumps for text classification problems.

( Image credit: Text Classification Algorithms: A Survey )

Papers

Recently Added Most Hyped Most Active Needs Verification Most Verified

Showing 3451–3500 of 3635 papers

Title	Date	Tasks	Status
Discriminating between standard Romanian and Moldavian tweets using filtered character ngrams	Dec 1, 2020	Articlestext-classification	CodeCode Available
The Benefits of Label-Description Training for Zero-Shot Text Classification	May 3, 2023	Classificationdomain classification	CodeCode Available
Statistical Depth for Ranking and Characterizing Transformer-Based Text Embeddings	Oct 23, 2023	Data AugmentationIn-Context Learning	CodeCode Available
Lightweight Contenders: Navigating Semi-Supervised Text Mining through Peer Collaboration and Self Transcendence	Dec 1, 2024	text-classificationText Classification	CodeCode Available
Light-Weighted CNN for Text Classification	Apr 16, 2020	ClassificationDocument Classification	CodeCode Available
Evaluating Defensive Distillation For Defending Text Processing Neural Networks Against Adversarial Examples	Aug 21, 2019	Adversarial TextClassification	CodeCode Available
Discrete Adversarial Attacks and Submodular Optimization with Applications to Text Classification	Dec 1, 2018	Adversarial TextGeneral Classification	CodeCode Available
DISCERN: Decoding Systematic Errors in Natural Language for Text Classifiers	Oct 29, 2024	Active Learningtext-classification	CodeCode Available
LIME: Weakly-Supervised Text Classification Without Seeds	Oct 13, 2022	ClassificationNatural Language Inference	CodeCode Available
Quantifying Explainability in NLP and Analyzing Algorithms for Performance-Explainability Tradeoff	Jul 12, 2021	Mortality Predictiontext-classification	CodeCode Available
The Butterfly Effect of Altering Prompts: How Small Changes and Jailbreaks Affect Large Language Model Performance	Jan 8, 2024	Language ModelingLanguage Modelling	CodeCode Available
DigiCall: A Benchmark for Measuring the Maturity of Digital Strategy through Company Earning Calls	Dec 8, 2022	Cultural Vocal Bursts Intensity PredictionLanguage Modelling	CodeCode Available
Linearized Relative Positional Encoding	Jul 18, 2023	image-classificationImage Classification	CodeCode Available
Linguistically Motivated Features for Classifying Shorter Text into Fiction and Non-Fiction Genre	Oct 1, 2022	ClassificationPOS	CodeCode Available
The Data Challenge in Misinformation Detection: Source Reputation vs. Content Veracity	Nov 1, 2018	ArticlesDomain Generalization	CodeCode Available
Differential equation and probability inspired graph neural networks for latent variable learning	Feb 28, 2022	Stock Predictiontext-classification	CodeCode Available
STENCIL: Submodular Mutual Information Based Weak Supervision for Cold-Start Active Learning	Feb 21, 2024	Active Learningtext-classification	CodeCode Available
Linguistic Interpretability of Transformer-based Language Models: a systematic review	Apr 9, 2025	Sentiment AnalysisSurvey	CodeCode Available
A Nearly Optimal Single Loop Algorithm for Stochastic Bilevel Optimization under Unbounded Smoothness	Dec 28, 2024	Bilevel OptimizationMeta-Learning	CodeCode Available
Can BERT Refrain from Forgetting on Sequential Tasks? A Probing Study	Mar 2, 2023	Extractive Question-AnsweringIncremental Learning	CodeCode Available
An Automated Text Categorization Framework based on Hyperparameter Optimization	Apr 6, 2017	Authorship AttributionGeneral Classification	CodeCode Available
Explain2Attack: Text Adversarial Attacks via Cross-Domain Interpretability	Oct 14, 2020	Adversarial Attacktext-classification	CodeCode Available
Did You Really Just Have a Heart Attack? Towards Robust Detection of Personal Health Mentions in Social Media	Feb 26, 2018	EpidemiologySemi-Supervised Text Classification	CodeCode Available
Did you offend me? Classification of Offensive Tweets in Hinglish Language	Oct 1, 2018	Abuse DetectionGeneral Classification	CodeCode Available
LLM-based feature generation from text for interpretable machine learning	Sep 11, 2024	ArticlesInterpretable Machine Learning	CodeCode Available
A Comparative Study of Feature Types for Age-Based Text Classification	Sep 24, 2020	General ClassificationInformation Retrieval	CodeCode Available
Can BERT eat RuCoLA? Topological Data Analysis to Explain	Apr 4, 2023	CoLALinguistic Acceptability	CodeCode Available
Dict2vec : Learning Word Embeddings using Lexical Dictionaries	Sep 1, 2017	General ClassificationKnowledge Graphs	CodeCode Available
Transfer Learning Robustness in Multi-Class Categorization by Fine-Tuning Pre-Trained Contextualized Language Models	Sep 8, 2019	General Classificationtext-classification	CodeCode Available
Transformation of Dense and Sparse Text Representations	Nov 7, 2019	General ClassificationNatural Language Inference	CodeCode Available
LLM Teacher-Student Framework for Text Classification With No Manually Annotated Data: A Case Study in IPTC News Topic Classification	Nov 29, 2024	ArticlesClassification	CodeCode Available
Dialogue Quality and Emotion Annotations for Customer Support Conversations	Nov 23, 2023	BenchmarkingDiversity	CodeCode Available
Calibrated SVM for Probabilistic Classification of In-Vehicle Voices into Vehicle Commands via Voice-to-Text LLM Transformation	Jun 28, 2024	Speech-to-Texttext-classification	CodeCode Available
RANCC: Rationalizing Neural Networks via Concept Clustering	Dec 1, 2020	ClassificationClustering	CodeCode Available
Unsupervised Label Refinement Improves Dataless Text Classification	Dec 8, 2020	ClassificationClustering	CodeCode Available
Randomized Geometric Algebra Methods for Convex Neural Networks	Jun 4, 2024	Language ModelingLanguage Modelling	CodeCode Available
Unsupervised Non-transferable Text Classification	Oct 23, 2022	Classificationtext-classification	CodeCode Available
The emojification of sentiment on social media: Collection and analysis of a longitudinal Twitter sentiment dataset	Aug 31, 2021	Sentiment Analysistext-classification	CodeCode Available
Rank-Aware Negative Training for Semi-Supervised Text Classification	Jun 13, 2023	ClassificationSemi-Supervised Text Classification	CodeCode Available
AI-Enhanced Cognitive Behavioral Therapy: Deep Learning and Large Language Models for Extracting Cognitive Pathways from Social Media Texts	Apr 17, 2024	Deep LearningHallucination	CodeCode Available
Ranking Generated Answers: On the Agreement of Retrieval Models with Humans on Consumer Health Questions	Aug 19, 2024	Open-Ended Question AnsweringQuestion Answering	CodeCode Available
LOPS: Learning Order Inspired Pseudo-Label Selection for Weakly Supervised Text Classification	May 25, 2022	MemorizationPseudo Label	CodeCode Available
CAIL2018: A Large-Scale Legal Dataset for Judgment Prediction	Jul 4, 2018	ArticlesPrediction	CodeCode Available
Low Rank Factorization for Compact Multi-Head Self-Attention	Nov 26, 2019	ArticlesGeneral Classification	CodeCode Available
Low-Resource Cross-Lingual Adaptive Training for Nigerian Pidgin	Jul 1, 2023	text-classificationText Classification	CodeCode Available
Building for Tomorrow: Assessing the Temporal Persistence of Text Classifiers	May 11, 2022	Classificationtext-classification	CodeCode Available
Transformer-based Text Classification on Unified Bangla Multi-class Emotion Corpus	Oct 12, 2022	Emotion ClassificationSentiment Analysis	CodeCode Available
Rationale-Augmented Convolutional Neural Networks for Text Classification	May 14, 2016	ClassificationGeneral Classification	CodeCode Available
The geometry of integration in text classification RNNs	Oct 28, 2020	ClassificationGeneral Classification	CodeCode Available
SubRegWeigh: Effective and Efficient Annotation Weighing with Subword Regularization	Sep 10, 2024	Document Classificationnamed-entity-recognition	CodeCode Available

Show:10 25 50

← PrevPage 70 of 73Next →

All datasets MTEB AG News DBpedia R8 TREC-6 20NEWS UK Key Stage Readability Ohsumed Yahoo! Answers MR Climabench NewsDiscourse

Benchmark Results

#	Model	Metric	Claimed	Verified	Status
1	ST5-XXL	Accuracy	73.42	—	Unverified
2	ST5-XL	Accuracy	72.84	—	Unverified
3	ST5-Large	Accuracy	72.31	—	Unverified
4	Ada Similarity	Accuracy	70.44	—	Unverified
5	SGPT-5.8B-nli	Accuracy	70.14	—	Unverified
6	ST5-Base	Accuracy	69.81	—	Unverified
7	SGPT-5.8B-msmarco	Accuracy	68.13	—	Unverified
8	MPNet-multilingual	Accuracy	67.91	—	Unverified
9	GTR-XXL	Accuracy	67.41	—	Unverified
10	SimCSE-BERT-sup	Accuracy	67.32	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	Mistral-Small-24B + CAPO	Error	15.7	—	Unverified
2	ToWE-SG	Error	14	—	Unverified
3	Qwen2.5-32B + CAPO	Error	12.93	—	Unverified
4	Llama-3.3-70B + CAPO	Error	11.2	—	Unverified
5	Seq2CNN with GWS(50)	Error	9.64	—	Unverified
6	Char-level CNN	Error	9.51	—	Unverified
7	SVDCNN	Error	9.45	—	Unverified
8	VDCN	Error	8.67	—	Unverified
9	Balanced+bi-leaf-RNN	Error	7.9	—	Unverified
10	CCCapsNet	Error	7.61	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	Seq2CNN(50)	Error	2.77	—	Unverified
2	Char-level CNN	Error	1.55	—	Unverified
3	SWEM-concat	Error	1.43	—	Unverified
4	FastText	Error	1.4	—	Unverified
5	VDCN	Error	1.29	—	Unverified
6	CCCapsNet	Error	1.28	—	Unverified
7	Balanced+bi-leaf-RNN	Error	1.2	—	Unverified
8	BERT large UDA	Error	1.09	—	Unverified
9	M-ACNN	Error	1.07	—	Unverified
10	EXAM	Error	1	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	DeBERTa	Accuracy	98.45	—	Unverified
2	C-BERT (ESGNN + BERT)	Accuracy	98.28	—	Unverified
3	ESGNN	Accuracy	98.23	—	Unverified
4	RoBERTaGCN	Accuracy	98.2	—	Unverified
5	BERT	Accuracy	98.17	—	Unverified
6	SGNN	Accuracy	98.09	—	Unverified
7	ERNIE 2.0	Accuracy	98.04	—	Unverified
8	DistilBERT	Accuracy	97.98	—	Unverified
9	Our Model*	Accuracy	97.8	—	Unverified
10	ALBERTv2	Accuracy	97.62	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	TM-Glove	Error	9.96	—	Unverified
2	byte mLSTM7	Error	9.6	—	Unverified
3	SWEM-aver	Error	7.8	—	Unverified
4	DELTA (CNN)	Error	7.8	—	Unverified
5	Capsule-B	Error	7.2	—	Unverified
6	STM+TSED+PT+2L	Error	7.04	—	Unverified
7	GRU-RNN-GLOVE	Error	7	—	Unverified
8	MPAD-path	Error	6.2	—	Unverified
9	VLAWE	Error	5.8	—	Unverified
10	C-LSTM	Error	5.4	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	LinearSVM+TFIDF	Accuracy	93	—	Unverified
2	RoBERTaGCN	Accuracy	89.5	—	Unverified
3	SSGC	Accuracy	88.6	—	Unverified
4	SGC	Accuracy	88.5	—	Unverified
5	SGCN	Accuracy	88.5	—	Unverified
6	RMDL (15 RDLs)	Accuracy	87.91	—	Unverified
7	Sparse Tensor Classifier	Accuracy	87.3	—	Unverified
8	GraphStar	Accuracy	86.9	—	Unverified
9	NABoE-full	Accuracy	86.8	—	Unverified
10	Text GCN	Accuracy	86.34	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	ELECTRA + ANN	F1	99.6	—	Unverified
2	ERNIE + ANN	F1	99.4	—	Unverified
3	XLNet + ANN	F1	99.2	—	Unverified
4	RoBERTa + ANN	F1	98.7	—	Unverified
5	Longformer + ANN	F1	93.9	—	Unverified
6	BERT + ANN	F1	90.5	—	Unverified
7	ALBERT + ANN	F1	79.7	—	Unverified
8	BERT	F1	75	—	Unverified
9	DistilBERT	F1	74.4	—	Unverified
10	XLNet	F1	74	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	RoBERTaGCN	Accuracy	72.8	—	Unverified
2	Our Model*	Accuracy	69.4	—	Unverified
3	SSGC	Accuracy	68.5	—	Unverified
4	SGC	Accuracy	68.5	—	Unverified
5	SGCN	Accuracy	68.5	—	Unverified
6	Text GCN	Accuracy	68.36	—	Unverified
7	GraphStar	Accuracy	64.2	—	Unverified
8	ApproxRepSet	Accuracy	64.06	—	Unverified
9	REL-RWMD k-NN	Accuracy	58.74	—	Unverified
10	CNN+Lowercased	Accuracy	36.2	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	BERT-ITPT-FiT	Accuracy	77.62	—	Unverified
2	DRNN	Accuracy	76.26	—	Unverified
3	DELTA (HAN)	Accuracy	75.1	—	Unverified
4	EXAM	Accuracy	74.8	—	Unverified
5	DNC+CUW	Accuracy	74.3	—	Unverified
6	ULMFiT (Small data)	Accuracy	74.3	—	Unverified
7	CCCapsNet	Accuracy	73.85	—	Unverified
8	SWEM-concat	Accuracy	73.53	—	Unverified
9	FastText	Accuracy	72.3	—	Unverified
10	Seq2CNN(50)	Accuracy	55.39	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	DeBERTa	Accuracy	90.21	—	Unverified
2	RoBERTaGCN	Accuracy	89.7	—	Unverified
3	ERNIE 2.0 (optimized)	Accuracy	89.53	—	Unverified
4	RoBERTa	Accuracy	89.42	—	Unverified
5	ERNIE 2.0	Accuracy	88.97	—	Unverified
6	BERT	Accuracy	86.94	—	Unverified
7	ALBERTv2	Accuracy	86.02	—	Unverified
8	DistilBERT	Accuracy	85.31	—	Unverified
9	SSGC	Accuracy	76.7	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	CliReBERT (P0L3/clirebert_clirevocab_uncased)	Evaluation Macro F1	0.65	—	Unverified
2	ClimateBERT (climatebert/distilroberta-base-climate-f)	Evaluation Macro F1	0.64	—	Unverified
3	BERT (google-bert/bert-base-uncased)	Evaluation Macro F1	0.61	—	Unverified
4	CliSciBERT (P0L3/cliscibert_scivocab_uncased)	Evaluation Macro F1	0.61	—	Unverified
5	SciBERT (allenai/scibert_scivocab_cased)	Evaluation Macro F1	0.59	—	Unverified
6	DistilRoBERTa (distilbert/distilroberta-base)	Evaluation Macro F1	0.58	—	Unverified
7	SciClimateBERT (P0L3/sciclimatebert)	Evaluation Macro F1	0.58	—	Unverified
8	RoBERTa (FacebookAI/roberta-base)	Evaluation Macro F1	0.57	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	Human (Post-Rec.) (Spangher et al., 2021)	macro F1	73.69	—	Unverified
2	MT-Mac (Spangher et al., 2021)	macro F1	63.46	—	Unverified
3	MT-Mic (Spangher et al., 2021)	macro F1	61.89	—	Unverified
4	RL-IP/TT (Choubey et al., 2021)	macro F1	57	—	Unverified
5	Document LSTM + Document encoding (Choubey et al., 2020)	macro F1	54.4	—	Unverified
6	CRF Fine-grained (Choubey et al., 2020)	macro F1	52.9	—	Unverified
7	Human (Blind) (Spangher et al., 2021)	macro F1	46.18	—	Unverified
8	Feature-based (SVM) (Choubey et al., 2020)	macro F1	38.3	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	1-6 BertGCN	Accuracy	96.6	—	Unverified
2	GraphStar	Accuracy	95	—	Unverified
3	Our Model*	Accuracy	94.6	—	Unverified
4	SSGC	Accuracy	94.5	—	Unverified
5	SGC	Accuracy	94	—	Unverified
6	SGCN	Accuracy	94	—	Unverified
7	Text GCN	Accuracy	93.56	—	Unverified
8	TM-Glove	Accuracy	89.14	—	Unverified