Text Classification

Text Classification is the task of assigning a sentence or document an appropriate category. The categories depend on the chosen dataset and can range from topics.

Text Classification problems include emotion classification, news classification, citation intent classification, among others. Benchmark datasets for evaluating text classification capabilities include GLUE, AGNews, among others.

In recent years, deep learning techniques like XLNet and RoBERTa have attained some of the biggest performance jumps for text classification problems.

( Image credit: Text Classification Algorithms: A Survey )

Papers

Recently Added Most Hyped Most Active Needs Verification Most Verified

Showing 201–250 of 3635 papers

Title	Date	Tasks	Status	Hype
Confidence Calibration of Classifiers with Many Classes	Nov 5, 2024	text-classificationText Classification	CodeCode Available	0
A Comparative Analysis of Instruction Fine-Tuning LLMs for Financial Text Classification	Nov 4, 2024	Classificationtext-classification	—Unverified	0
Wave Network: An Ultra-Small Language Model	Nov 4, 2024	Language ModelingLanguage Modelling	—Unverified	0
Undermining Image and Text Classification Algorithms Using Adversarial Attacks	Nov 3, 2024	ClassificationFace Recognition	—Unverified	0
Combining Financial Data and News Articles for Stock Price Movement Prediction Using Large Language Models	Nov 2, 2024	Articlestext-classification	—Unverified	0
Fighting Spurious Correlations in Text Classification via a Causal Learning Perspective	Nov 1, 2024	counterfactualCounterfactual Reasoning	CodeCode Available	0
A Similarity-Based Oversampling Method for Multi-label Imbalanced Text Data	Nov 1, 2024	Multi-Label ClassificationMUlTI-LABEL-ClASSIFICATION	—Unverified	0
Unified Generative and Discriminative Training for Multi-modal Large Language Models	Nov 1, 2024	Dynamic Time WarpingImage-text Classification	—Unverified	0
Rethinking Scale: The Efficacy of Fine-Tuned Open-Source LLMs in Large-Scale Reproducible Social Science Research	Oct 31, 2024	text-classificationText Classification	—Unverified	0
GigaCheck: Detecting LLM-generated Content	Oct 31, 2024	Binary text classificationBoundary Detection	—Unverified	0
Large Language Models for Patient Comments Multi-Label Classification	Oct 31, 2024	De-identificationFew-Shot Learning	—Unverified	0
Deep Learning and Machine Learning -- Natural Language Processing: From Theory to Application	Oct 30, 2024	text-classificationText Classification	—Unverified	0
Automated Trustworthiness Oracle Generation for Machine Learning Text Classifiers	Oct 30, 2024	Adversarial AttackChatbot	—Unverified	0
Don't Just Pay Attention, PLANT It: Transfer L2R Models to Fine-tune Attention in Extreme Multi-Label Text Classification	Oct 30, 2024	DecoderLearning-To-Rank	—Unverified	0
Multimodal Quantum Natural Language Processing: A Novel Framework for using Quantum Methods to Analyse Real Data	Oct 29, 2024	Data IntegrationImage-text Classification	CodeCode Available	0
Natural Language Processing for Analyzing Electronic Health Records and Clinical Notes in Cancer Research: A Review	Oct 29, 2024	text-classificationText Classification	—Unverified	0
DISCERN: Decoding Systematic Errors in Natural Language for Text Classifiers	Oct 29, 2024	Active Learningtext-classification	CodeCode Available	0
Class-Aware Contrastive Optimization for Imbalanced Text Classification	Oct 29, 2024	ClassificationDenoising	—Unverified	0
Not All LLM-Generated Data Are Equal: Rethinking Data Weighting in Text Classification	Oct 28, 2024	AllData Augmentation	—Unverified	0
Attacking Misinformation Detection Using Adversarial Examples Generated by Language Models	Oct 28, 2024	ArticlesMisinformation	—Unverified	0
Graph Neural Networks on Discriminative Graphs of Words	Oct 27, 2024	Classificationgraph construction	CodeCode Available	0
Vulnerability of LLMs to Vertically Aligned Text Manipulations	Oct 26, 2024	ClassificationFew-Shot Learning	—Unverified	0
Attacks against Abstractive Text Summarization Models through Lead Bias and Influence Functions	Oct 26, 2024	Abstractive Text SummarizationAdversarial Robustness	—Unverified	0
Natural Language Processing for the Legal Domain: A Survey of Tasks, Datasets, Models, and Challenges	Oct 25, 2024	Argument MiningDocument Summarization	—Unverified	0
Ensembling Finetuned Language Models for Text Classification	Oct 25, 2024	Classificationtext-classification	CodeCode Available	0
Future Token Prediction -- Causal Language Modelling with Per-Token Semantic State Vector for Multi-Token Prediction	Oct 23, 2024	DecoderLanguage Modelling	—Unverified	0
Advancing Interpretability in Text Classification through Prototype Learning	Oct 23, 2024	ClassificationSentence	—Unverified	0
Natural Language Processing for Human Resources: A Survey	Oct 21, 2024	ManagementSurvey	CodeCode Available	0
AutoTrain: No-code training for state-of-the-art models	Oct 21, 2024	Classificationimage-classification	CodeCode Available	7
1024m at SMM4H 2024: Tasks 3, 5 & 6 -- Ensembles of Transformers and Large Language Models for Medical Text Classification	Oct 21, 2024	Binary Classificationtext-classification	—Unverified	0
Weakly-supervised diagnosis identification from Italian discharge letters	Oct 19, 2024	Document Classificationtext-classification	—Unverified	0
Graph Contrastive Learning via Cluster-refined Negative Sampling for Semi-supervised Text Classification	Oct 18, 2024	ClassificationClustering	—Unverified	0
A Novel Method to Metigate Demographic and Expert Bias in ICD Coding with Causal Inference	Oct 18, 2024	Causal Inferencecounterfactual	—Unverified	0
Unlearning Backdoor Attacks for LLMs with Weak-to-Strong Knowledge Distillation	Oct 18, 2024	Backdoor AttackKnowledge Distillation	CodeCode Available	0
Risk of Text Backdoor Attacks Under Dataset Distillation	Oct 17, 2024	Backdoor AttackDataset Distillation	CodeCode Available	0
Similarity-Dissimilarity Loss for Multi-label Supervised Contrastive Learning	Oct 17, 2024	Contrastive LearningMulti-Label Classification	CodeCode Available	0
From Measurement Instruments to Data: Leveraging Theory-Driven Synthetic Training Data for Classifying Social Constructs	Oct 16, 2024	Classificationtext-classification	—Unverified	0
Reducing Labeling Costs in Sentiment Analysis via Semi-Supervised Learning	Oct 15, 2024	Sentiment Analysistext-classification	—Unverified	0
A Multi-Task Text Classification Pipeline with Natural Language Explanations: A User-Centric Evaluation in Sentiment Analysis and Offensive Language Identification in Greek Tweets	Oct 14, 2024	Feature ImportanceLanguage Identification	—Unverified	0
Improve Meta-learning for Few-Shot Text Classification with All You Can Acquire from the Tasks	Oct 14, 2024	AllFew-Shot Text Classification	CodeCode Available	0
Empirical Study of Mutual Reinforcement Effect and Application in Few-shot Text Classification Tasks via Prompt	Oct 13, 2024	ClassificationFew-Shot Text Classification	—Unverified	0
Text Classification using Graph Convolutional Networks: A Comprehensive Survey	Oct 12, 2024	ClassificationDocument Classification	—Unverified	0
Exploring space efficiency in a tree-based linear model for extreme multi-label classification	Oct 12, 2024	Extreme Multi-Label ClassificationMulti-Label Classification	—Unverified	0
Parameter-Efficient Fine-Tuning of Large Language Models using Semantic Knowledge Tuning	Oct 11, 2024	parameter-efficient fine-tuningtext-classification	—Unverified	0
StablePrompt: Automatic Prompt Tuning using Reinforcement Learning for Large Language Models	Oct 10, 2024	Question AnsweringReinforcement Learning (RL)	CodeCode Available	1
Vector-ICL: In-context Learning with Continuous Vector Representations	Oct 8, 2024	ClassificationGraph Classification	CodeCode Available	1
A Comparative Study of Hybrid Models in Health Misinformation Text Classification	Oct 8, 2024	LemmatizationMisinformation	—Unverified	0
Manual Verbalizer Enrichment for Few-Shot Text Classification	Oct 8, 2024	BenchmarkingClassification	—Unverified	0
Explanation sensitivity to the randomness of large language models: the case of journalistic text classification	Oct 7, 2024	Sensitivitytext-classification	—Unverified	0
On Uncertainty In Natural Language Processing	Oct 4, 2024	Conformal Predictiontext-classification	—Unverified	0

Show:10 25 50

← PrevPage 5 of 73Next →

All datasets MTEB AG News DBpedia R8 TREC-6 20NEWS UK Key Stage Readability Ohsumed Yahoo! Answers MR Climabench NewsDiscourse

Benchmark Results

#	Model	Metric	Claimed	Verified	Status
1	ST5-XXL	Accuracy	73.42	—	Unverified
2	ST5-XL	Accuracy	72.84	—	Unverified
3	ST5-Large	Accuracy	72.31	—	Unverified
4	Ada Similarity	Accuracy	70.44	—	Unverified
5	SGPT-5.8B-nli	Accuracy	70.14	—	Unverified
6	ST5-Base	Accuracy	69.81	—	Unverified
7	SGPT-5.8B-msmarco	Accuracy	68.13	—	Unverified
8	MPNet-multilingual	Accuracy	67.91	—	Unverified
9	GTR-XXL	Accuracy	67.41	—	Unverified
10	SimCSE-BERT-sup	Accuracy	67.32	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	Mistral-Small-24B + CAPO	Error	15.7	—	Unverified
2	ToWE-SG	Error	14	—	Unverified
3	Qwen2.5-32B + CAPO	Error	12.93	—	Unverified
4	Llama-3.3-70B + CAPO	Error	11.2	—	Unverified
5	Seq2CNN with GWS(50)	Error	9.64	—	Unverified
6	Char-level CNN	Error	9.51	—	Unverified
7	SVDCNN	Error	9.45	—	Unverified
8	VDCN	Error	8.67	—	Unverified
9	Balanced+bi-leaf-RNN	Error	7.9	—	Unverified
10	CCCapsNet	Error	7.61	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	Seq2CNN(50)	Error	2.77	—	Unverified
2	Char-level CNN	Error	1.55	—	Unverified
3	SWEM-concat	Error	1.43	—	Unverified
4	FastText	Error	1.4	—	Unverified
5	VDCN	Error	1.29	—	Unverified
6	CCCapsNet	Error	1.28	—	Unverified
7	Balanced+bi-leaf-RNN	Error	1.2	—	Unverified
8	BERT large UDA	Error	1.09	—	Unverified
9	M-ACNN	Error	1.07	—	Unverified
10	EXAM	Error	1	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	DeBERTa	Accuracy	98.45	—	Unverified
2	C-BERT (ESGNN + BERT)	Accuracy	98.28	—	Unverified
3	ESGNN	Accuracy	98.23	—	Unverified
4	RoBERTaGCN	Accuracy	98.2	—	Unverified
5	BERT	Accuracy	98.17	—	Unverified
6	SGNN	Accuracy	98.09	—	Unverified
7	ERNIE 2.0	Accuracy	98.04	—	Unverified
8	DistilBERT	Accuracy	97.98	—	Unverified
9	Our Model*	Accuracy	97.8	—	Unverified
10	ALBERTv2	Accuracy	97.62	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	TM-Glove	Error	9.96	—	Unverified
2	byte mLSTM7	Error	9.6	—	Unverified
3	DELTA (CNN)	Error	7.8	—	Unverified
4	SWEM-aver	Error	7.8	—	Unverified
5	Capsule-B	Error	7.2	—	Unverified
6	STM+TSED+PT+2L	Error	7.04	—	Unverified
7	GRU-RNN-GLOVE	Error	7	—	Unverified
8	MPAD-path	Error	6.2	—	Unverified
9	VLAWE	Error	5.8	—	Unverified
10	C-LSTM	Error	5.4	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	LinearSVM+TFIDF	Accuracy	93	—	Unverified
2	RoBERTaGCN	Accuracy	89.5	—	Unverified
3	SSGC	Accuracy	88.6	—	Unverified
4	SGC	Accuracy	88.5	—	Unverified
5	SGCN	Accuracy	88.5	—	Unverified
6	RMDL (15 RDLs)	Accuracy	87.91	—	Unverified
7	Sparse Tensor Classifier	Accuracy	87.3	—	Unverified
8	GraphStar	Accuracy	86.9	—	Unverified
9	NABoE-full	Accuracy	86.8	—	Unverified
10	Text GCN	Accuracy	86.34	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	ELECTRA + ANN	F1	99.6	—	Unverified
2	ERNIE + ANN	F1	99.4	—	Unverified
3	XLNet + ANN	F1	99.2	—	Unverified
4	RoBERTa + ANN	F1	98.7	—	Unverified
5	Longformer + ANN	F1	93.9	—	Unverified
6	BERT + ANN	F1	90.5	—	Unverified
7	ALBERT + ANN	F1	79.7	—	Unverified
8	BERT	F1	75	—	Unverified
9	DistilBERT	F1	74.4	—	Unverified
10	Longformer	F1	74	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	RoBERTaGCN	Accuracy	72.8	—	Unverified
2	Our Model*	Accuracy	69.4	—	Unverified
3	SGCN	Accuracy	68.5	—	Unverified
4	SGC	Accuracy	68.5	—	Unverified
5	SSGC	Accuracy	68.5	—	Unverified
6	Text GCN	Accuracy	68.36	—	Unverified
7	GraphStar	Accuracy	64.2	—	Unverified
8	ApproxRepSet	Accuracy	64.06	—	Unverified
9	REL-RWMD k-NN	Accuracy	58.74	—	Unverified
10	CNN+Lowercased	Accuracy	36.2	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	BERT-ITPT-FiT	Accuracy	77.62	—	Unverified
2	DRNN	Accuracy	76.26	—	Unverified
3	DELTA (HAN)	Accuracy	75.1	—	Unverified
4	EXAM	Accuracy	74.8	—	Unverified
5	DNC+CUW	Accuracy	74.3	—	Unverified
6	ULMFiT (Small data)	Accuracy	74.3	—	Unverified
7	CCCapsNet	Accuracy	73.85	—	Unverified
8	SWEM-concat	Accuracy	73.53	—	Unverified
9	FastText	Accuracy	72.3	—	Unverified
10	Seq2CNN(50)	Accuracy	55.39	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	DeBERTa	Accuracy	90.21	—	Unverified
2	RoBERTaGCN	Accuracy	89.7	—	Unverified
3	ERNIE 2.0 (optimized)	Accuracy	89.53	—	Unverified
4	RoBERTa	Accuracy	89.42	—	Unverified
5	ERNIE 2.0	Accuracy	88.97	—	Unverified
6	BERT	Accuracy	86.94	—	Unverified
7	ALBERTv2	Accuracy	86.02	—	Unverified
8	DistilBERT	Accuracy	85.31	—	Unverified
9	SSGC	Accuracy	76.7	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	CliReBERT (P0L3/clirebert_clirevocab_uncased)	Evaluation Macro F1	0.65	—	Unverified
2	ClimateBERT (climatebert/distilroberta-base-climate-f)	Evaluation Macro F1	0.64	—	Unverified
3	BERT (google-bert/bert-base-uncased)	Evaluation Macro F1	0.61	—	Unverified
4	CliSciBERT (P0L3/cliscibert_scivocab_uncased)	Evaluation Macro F1	0.61	—	Unverified
5	SciBERT (allenai/scibert_scivocab_cased)	Evaluation Macro F1	0.59	—	Unverified
6	DistilRoBERTa (distilbert/distilroberta-base)	Evaluation Macro F1	0.58	—	Unverified
7	SciClimateBERT (P0L3/sciclimatebert)	Evaluation Macro F1	0.58	—	Unverified
8	RoBERTa (FacebookAI/roberta-base)	Evaluation Macro F1	0.57	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	Human (Post-Rec.) (Spangher et al., 2021)	macro F1	73.69	—	Unverified
2	MT-Mac (Spangher et al., 2021)	macro F1	63.46	—	Unverified
3	MT-Mic (Spangher et al., 2021)	macro F1	61.89	—	Unverified
4	RL-IP/TT (Choubey et al., 2021)	macro F1	57	—	Unverified
5	Document LSTM + Document encoding (Choubey et al., 2020)	macro F1	54.4	—	Unverified
6	CRF Fine-grained (Choubey et al., 2020)	macro F1	52.9	—	Unverified
7	Human (Blind) (Spangher et al., 2021)	macro F1	46.18	—	Unverified
8	Feature-based (SVM) (Choubey et al., 2020)	macro F1	38.3	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	1-6 BertGCN	Accuracy	96.6	—	Unverified
2	GraphStar	Accuracy	95	—	Unverified
3	Our Model*	Accuracy	94.6	—	Unverified
4	SSGC	Accuracy	94.5	—	Unverified
5	SGCN	Accuracy	94	—	Unverified
6	SGC	Accuracy	94	—	Unverified
7	Text GCN	Accuracy	93.56	—	Unverified
8	TM-Glove	Accuracy	89.14	—	Unverified