Text Classification

Text Classification is the task of assigning a sentence or document an appropriate category. The categories depend on the chosen dataset and can range from topics.

Text Classification problems include emotion classification, news classification, citation intent classification, among others. Benchmark datasets for evaluating text classification capabilities include GLUE, AGNews, among others.

In recent years, deep learning techniques like XLNet and RoBERTa have attained some of the biggest performance jumps for text classification problems.

( Image credit: Text Classification Algorithms: A Survey )

Papers

Recently Added Most Hyped Most Active Needs Verification Most Verified

Showing 1801–1850 of 3635 papers

Title	Date	Tasks	Status
Skill Inference with Personal and Skill Connections	Aug 1, 2014	Text Classification	—Unverified
SkIn: Skimming-Intensive Long-Text Classification Using BERT for Medical Corpus	Sep 13, 2022	Sentencetext-classification	—Unverified
SLCNN: Sentence-Level Convolutional Neural Network for Text Classification	Jan 27, 2023	ClassificationDeep Learning	—Unverified
Small data problems in political research: a critical replication study	Sep 27, 2021	text-classificationText Classification	—Unverified
Small Language Models are Good Too: An Empirical Study of Zero-Shot Classification	Apr 17, 2024	Classificationtext-classification	—Unverified
Small Language Models in the Real World: Insights from Industrial Text Classification	May 21, 2025	ClassificationDecoder	—Unverified
Small-Text: Active Learning for Text Classification in Python	Jul 21, 2021	Active LearningClassification	—Unverified
SMTCE: A Social Media Text Classification Evaluation Benchmark and BERTology Models for Vietnamese	Sep 21, 2022	Classificationtext-classification	—Unverified
Social Media and Artificial Intelligence for Sustainable Cities and Societies: A Water Quality Analysis Use-case	Apr 23, 2024	text-classificationText Classification	—Unverified
Social Media Text Classification under Negative Covariate Shift	Sep 1, 2015	ClassificationGeneral Classification	—Unverified
Soft Language Clustering for Multilingual Model Pre-training	Jun 13, 2023	ClusteringCross-Lingual Transfer	—Unverified
Soft Token Matching for Interpretable Low-Resource Classification	Sep 25, 2019	Classificationtext-classification	—Unverified
Solving Feature Sparseness in Text Classification using Core-Periphery Decomposition	Jun 1, 2018	ClassificationDomain Adaptation	—Unverified
SPACL: Shared-Private Architecture based on Contrastive Learning for Multi-domain Text Classification	Oct 1, 2022	ClassificationContrastive Learning	—Unverified
Spam filtering on forums: A synthetic oversampling based approach for imbalanced data classification	Sep 10, 2019	ClassificationGeneral Classification	—Unverified
Sparse, Contextually Informed Models for Irony Detection: Exploiting User Communities, Entities and Sentiment	Jul 1, 2015	Text Classification	—Unverified
Regularization and feature selection for large dimensional data	Dec 6, 2017	feature selectionGeneral Classification	—Unverified
SPARTA: Speaker Profiling for ARabic TAlk	Dec 13, 2020	Multi-Task LearningSpeaker Profiling	—Unverified
Spatial Information Integration in Small Language Models for Document Layout Generation and Classification	Jan 9, 2025	Layout Generationtext-classification	—Unverified
Specialized text classification: an approach to classifying Open Banking transactions	Apr 10, 2025	General Classificationtext-classification	—Unverified
Spectral Graph-Based Method of Multimodal Word Embedding	Aug 1, 2017	Graph EmbeddingImage Retrieval	—Unverified
Speeding Document Annotation with Topic Models	Jun 1, 2015	Document ClassificationGeneral Classification	—Unverified
Speeding Up Transformer Training By Using Dataset Subsampling - An Exploratory Analysis	Nov 1, 2021	text-classificationText Classification	—Unverified
Sprinkling Topics for Weakly Supervised Text Classification	Jun 1, 2014	ClassificationGeneral Classification	—Unverified
SPSQL: Step-by-step Parsing Based Framework for Text-to-SQL Generation	May 10, 2023	Data AugmentationMarketing	—Unverified
Squibs: Evaluation Methods for Statistically Dependent Text	Sep 1, 2015	Named Entity Recognition (NER)Opinion Mining	—Unverified
SSN-NLP at SemEval-2020 Task 4: Text Classification and Generation on Common Sense Context Using Neural Networks	Dec 1, 2020	Common Sense ReasoningMachine Translation	—Unverified
SSN_NLP_MLRG at SemEval-2022 Task 4: Ensemble Learning strategies to detect Patronizing and Condescending Language	Jul 1, 2022	ClassificationEnsemble Learning	—Unverified
Stability of Syntactic Dialect Classification Over Space and Time	Sep 11, 2022	Classificationtext-classification	—Unverified
Stacked Sentence-Document Classifier Approach for Improving Native Language Identification	Sep 1, 2017	Document ClassificationLanguage Identification	—Unverified
Stacking Neural Network Models for Automatic Short Answer Scoring	Oct 21, 2020	General ClassificationSentence	—Unverified
State-of-the-art Advances of Deep-learning Linguistic Steganalysis Research	Sep 3, 2024	Linguistic steganographySteganalysis	—Unverified
Statistical Estimation from Dependent Data	Jul 20, 2021	regressiontext-classification	—Unverified
Statistical Machine Translation with Automatic Identification of Translationese	Sep 1, 2015	Language ModellingMachine Translation	—Unverified
Statistical Section Segmentation in Free-Text Clinical Records	May 1, 2012	General ClassificationInformation Retrieval	—Unverified
Stochastic Discriminative EM	Oct 2, 2014	text-classificationText Classification	—Unverified
Stochastic Ratio Matching of RBMs for Sparse High-Dimensional Inputs	Dec 1, 2013	text-classificationText Classification	—Unverified
Stochastic Tokenization with a Language Model for Neural Text Classification	Jul 1, 2019	ClassificationGeneral Classification	—Unverified
Stock Market Prediction with Deep Learning: A Character-based Neural Language Model for Event-based Trading	Dec 1, 2017	Feature EngineeringLanguage Modeling	—Unverified
Stopping Active Learning based on Predicted Change of F Measure for Text Classification	Jan 26, 2019	Active LearningGeneral Classification	—Unverified
Story Point Effort Estimation by Text Level Graph Neural Network	Mar 6, 2022	ClassificationGraph Neural Network	—Unverified
STPrompt: Semantic-guided and Task-driven prompts for Effective Few-shot Classification	Oct 29, 2022	Few-Shot LearningFew-Shot Text Classification	—Unverified
Structured Sparsification of Gated Recurrent Neural Networks	Nov 13, 2019	Language ModelingLanguage Modelling	—Unverified
Structure-Tags Improve Text Classification for Scholarly Document Quality Prediction	Apr 30, 2020	General Classificationtext-classification	—Unverified
Studying Positive Speech on Twitter	Feb 24, 2017	General ClassificationOpinion Mining	—Unverified
Stylometric Studies based on Tone and Word Length Motifs	Nov 1, 2017	General ClassificationText Classification	—Unverified
Subcharacter Information in Japanese Embeddings: When Is It Worth It?	Jul 1, 2018	Text Classification	—Unverified
Substructure Substitution: Structured Data Augmentation for NLP	Jan 2, 2021	Data AugmentationPart-Of-Speech Tagging	—Unverified
Suicidal Ideation Detection on Social Media: A Review of Machine Learning Methods	Jan 25, 2022	BIG-bench Machine Learningtext-classification	—Unverified
Summarization of Multi-Document Topic Hierarchies using Submodular Mixtures	Jul 1, 2015	Image ClassificationText Classification	—Unverified

Show:10 25 50

← PrevPage 37 of 73Next →

All datasets MTEB AG News DBpedia R8 TREC-6 20NEWS UK Key Stage Readability Ohsumed Yahoo! Answers MR Climabench NewsDiscourse

Benchmark Results

#	Model	Metric	Claimed	Verified	Status
1	ST5-XXL	Accuracy	73.42	—	Unverified
2	ST5-XL	Accuracy	72.84	—	Unverified
3	ST5-Large	Accuracy	72.31	—	Unverified
4	Ada Similarity	Accuracy	70.44	—	Unverified
5	SGPT-5.8B-nli	Accuracy	70.14	—	Unverified
6	ST5-Base	Accuracy	69.81	—	Unverified
7	SGPT-5.8B-msmarco	Accuracy	68.13	—	Unverified
8	MPNet-multilingual	Accuracy	67.91	—	Unverified
9	GTR-XXL	Accuracy	67.41	—	Unverified
10	SimCSE-BERT-sup	Accuracy	67.32	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	Mistral-Small-24B + CAPO	Error	15.7	—	Unverified
2	ToWE-SG	Error	14	—	Unverified
3	Qwen2.5-32B + CAPO	Error	12.93	—	Unverified
4	Llama-3.3-70B + CAPO	Error	11.2	—	Unverified
5	Seq2CNN with GWS(50)	Error	9.64	—	Unverified
6	Char-level CNN	Error	9.51	—	Unverified
7	SVDCNN	Error	9.45	—	Unverified
8	VDCN	Error	8.67	—	Unverified
9	Balanced+bi-leaf-RNN	Error	7.9	—	Unverified
10	CCCapsNet	Error	7.61	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	Seq2CNN(50)	Error	2.77	—	Unverified
2	Char-level CNN	Error	1.55	—	Unverified
3	SWEM-concat	Error	1.43	—	Unverified
4	FastText	Error	1.4	—	Unverified
5	VDCN	Error	1.29	—	Unverified
6	CCCapsNet	Error	1.28	—	Unverified
7	Balanced+bi-leaf-RNN	Error	1.2	—	Unverified
8	BERT large UDA	Error	1.09	—	Unverified
9	M-ACNN	Error	1.07	—	Unverified
10	EXAM	Error	1	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	DeBERTa	Accuracy	98.45	—	Unverified
2	C-BERT (ESGNN + BERT)	Accuracy	98.28	—	Unverified
3	ESGNN	Accuracy	98.23	—	Unverified
4	RoBERTaGCN	Accuracy	98.2	—	Unverified
5	BERT	Accuracy	98.17	—	Unverified
6	SGNN	Accuracy	98.09	—	Unverified
7	ERNIE 2.0	Accuracy	98.04	—	Unverified
8	DistilBERT	Accuracy	97.98	—	Unverified
9	Our Model*	Accuracy	97.8	—	Unverified
10	ALBERTv2	Accuracy	97.62	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	TM-Glove	Error	9.96	—	Unverified
2	byte mLSTM7	Error	9.6	—	Unverified
3	DELTA (CNN)	Error	7.8	—	Unverified
4	SWEM-aver	Error	7.8	—	Unverified
5	Capsule-B	Error	7.2	—	Unverified
6	STM+TSED+PT+2L	Error	7.04	—	Unverified
7	GRU-RNN-GLOVE	Error	7	—	Unverified
8	MPAD-path	Error	6.2	—	Unverified
9	VLAWE	Error	5.8	—	Unverified
10	C-LSTM	Error	5.4	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	LinearSVM+TFIDF	Accuracy	93	—	Unverified
2	RoBERTaGCN	Accuracy	89.5	—	Unverified
3	SSGC	Accuracy	88.6	—	Unverified
4	SGC	Accuracy	88.5	—	Unverified
5	SGCN	Accuracy	88.5	—	Unverified
6	RMDL (15 RDLs)	Accuracy	87.91	—	Unverified
7	Sparse Tensor Classifier	Accuracy	87.3	—	Unverified
8	GraphStar	Accuracy	86.9	—	Unverified
9	NABoE-full	Accuracy	86.8	—	Unverified
10	Text GCN	Accuracy	86.34	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	ELECTRA + ANN	F1	99.6	—	Unverified
2	ERNIE + ANN	F1	99.4	—	Unverified
3	XLNet + ANN	F1	99.2	—	Unverified
4	RoBERTa + ANN	F1	98.7	—	Unverified
5	Longformer + ANN	F1	93.9	—	Unverified
6	BERT + ANN	F1	90.5	—	Unverified
7	ALBERT + ANN	F1	79.7	—	Unverified
8	BERT	F1	75	—	Unverified
9	DistilBERT	F1	74.4	—	Unverified
10	Longformer	F1	74	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	RoBERTaGCN	Accuracy	72.8	—	Unverified
2	Our Model*	Accuracy	69.4	—	Unverified
3	SSGC	Accuracy	68.5	—	Unverified
4	SGCN	Accuracy	68.5	—	Unverified
5	SGC	Accuracy	68.5	—	Unverified
6	Text GCN	Accuracy	68.36	—	Unverified
7	GraphStar	Accuracy	64.2	—	Unverified
8	ApproxRepSet	Accuracy	64.06	—	Unverified
9	REL-RWMD k-NN	Accuracy	58.74	—	Unverified
10	CNN+Lowercased	Accuracy	36.2	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	BERT-ITPT-FiT	Accuracy	77.62	—	Unverified
2	DRNN	Accuracy	76.26	—	Unverified
3	DELTA (HAN)	Accuracy	75.1	—	Unverified
4	EXAM	Accuracy	74.8	—	Unverified
5	DNC+CUW	Accuracy	74.3	—	Unverified
6	ULMFiT (Small data)	Accuracy	74.3	—	Unverified
7	CCCapsNet	Accuracy	73.85	—	Unverified
8	SWEM-concat	Accuracy	73.53	—	Unverified
9	FastText	Accuracy	72.3	—	Unverified
10	Seq2CNN(50)	Accuracy	55.39	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	DeBERTa	Accuracy	90.21	—	Unverified
2	RoBERTaGCN	Accuracy	89.7	—	Unverified
3	ERNIE 2.0 (optimized)	Accuracy	89.53	—	Unverified
4	RoBERTa	Accuracy	89.42	—	Unverified
5	ERNIE 2.0	Accuracy	88.97	—	Unverified
6	BERT	Accuracy	86.94	—	Unverified
7	ALBERTv2	Accuracy	86.02	—	Unverified
8	DistilBERT	Accuracy	85.31	—	Unverified
9	SSGC	Accuracy	76.7	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	CliReBERT (P0L3/clirebert_clirevocab_uncased)	Evaluation Macro F1	0.65	—	Unverified
2	ClimateBERT (climatebert/distilroberta-base-climate-f)	Evaluation Macro F1	0.64	—	Unverified
3	BERT (google-bert/bert-base-uncased)	Evaluation Macro F1	0.61	—	Unverified
4	CliSciBERT (P0L3/cliscibert_scivocab_uncased)	Evaluation Macro F1	0.61	—	Unverified
5	SciBERT (allenai/scibert_scivocab_cased)	Evaluation Macro F1	0.59	—	Unverified
6	DistilRoBERTa (distilbert/distilroberta-base)	Evaluation Macro F1	0.58	—	Unverified
7	SciClimateBERT (P0L3/sciclimatebert)	Evaluation Macro F1	0.58	—	Unverified
8	RoBERTa (FacebookAI/roberta-base)	Evaluation Macro F1	0.57	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	Human (Post-Rec.) (Spangher et al., 2021)	macro F1	73.69	—	Unverified
2	MT-Mac (Spangher et al., 2021)	macro F1	63.46	—	Unverified
3	MT-Mic (Spangher et al., 2021)	macro F1	61.89	—	Unverified
4	RL-IP/TT (Choubey et al., 2021)	macro F1	57	—	Unverified
5	Document LSTM + Document encoding (Choubey et al., 2020)	macro F1	54.4	—	Unverified
6	CRF Fine-grained (Choubey et al., 2020)	macro F1	52.9	—	Unverified
7	Human (Blind) (Spangher et al., 2021)	macro F1	46.18	—	Unverified
8	Feature-based (SVM) (Choubey et al., 2020)	macro F1	38.3	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	1-6 BertGCN	Accuracy	96.6	—	Unverified
2	GraphStar	Accuracy	95	—	Unverified
3	Our Model*	Accuracy	94.6	—	Unverified
4	SSGC	Accuracy	94.5	—	Unverified
5	SGC	Accuracy	94	—	Unverified
6	SGCN	Accuracy	94	—	Unverified
7	Text GCN	Accuracy	93.56	—	Unverified
8	TM-Glove	Accuracy	89.14	—	Unverified