Text Classification

Text Classification is the task of assigning a sentence or document an appropriate category. The categories depend on the chosen dataset and can range from topics.

Text Classification problems include emotion classification, news classification, citation intent classification, among others. Benchmark datasets for evaluating text classification capabilities include GLUE, AGNews, among others.

In recent years, deep learning techniques like XLNet and RoBERTa have attained some of the biggest performance jumps for text classification problems.

( Image credit: Text Classification Algorithms: A Survey )

Papers

Recently Added Most Hyped Most Active Needs Verification Most Verified

Showing 551–600 of 3635 papers

Title	Date	Tasks	Status	Hype
APT-Pipe: A Prompt-Tuning Tool for Social Data Annotation using ChatGPT	Jan 24, 2024	text-classificationText Classification	CodeCode Available	0
IndiText Boost: Text Augmentation for Low Resource India Languages	Jan 23, 2024	Data AugmentationMulti Class Text Classification	—Unverified	0
Key Information Retrieval to Classify the Unstructured Data Content of Preferential Trade Agreements	Jan 23, 2024	Information RetrievalPrediction	—Unverified	0
Community-based Behavioral Understanding of Crisis Activity Concerns using Social Media Data: A Study on the 2023 Canadian Wildfires in New York City	Jan 22, 2024	text-classificationText Classification	—Unverified	0
Fine-tuning Large Language Models for Multigenerator, Multidomain, and Multilingual Machine-Generated Text Detection	Jan 22, 2024	Binary ClassificationClassification	—Unverified	0
Density Adaptive Attention is All You Need: Robust Parameter-Efficient Fine-Tuning Across Multiple Modalities	Jan 20, 2024	AllEmotion Recognition	CodeCode Available	1
The Radiation Oncology NLP Database	Jan 19, 2024	Language ModellingLarge Language Model	CodeCode Available	1
Leveraging Biases in Large Language Models: "bias-kNN'' for Effective Few-Shot Learning	Jan 18, 2024	Few-Shot LearningIn-Context Learning	—Unverified	0
Adapters Mixup: Mixing Parameter-Efficient Adapters to Enhance the Adversarial Robustness of Fine-tuned Pre-trained Text Classifiers	Jan 18, 2024	Adversarial Robustnessparameter-efficient fine-tuning	—Unverified	0
Improving Classification Performance With Human Feedback: Label a few, we label the rest	Jan 17, 2024	Active Learningtext-classification	—Unverified	0
Bilevel Optimization under Unbounded Smoothness: A New Algorithm and Convergence Analysis	Jan 17, 2024	Bilevel OptimizationHyperparameter Optimization	CodeCode Available	0
Machines Do See Color: A Guideline to Classify Different Forms of Racist Discourse in Large Corpora	Jan 17, 2024	text-classificationText Classification	—Unverified	0
A Reproducibility Study of Goldilocks: Just-Right Tuning of BERT for TAR	Jan 16, 2024	Active LearningSystematic Literature Review	CodeCode Available	0
Harnessing the Power of Beta Scoring in Deep Active Learning for Multi-Label Text Classification	Jan 15, 2024	Active LearningMulti Label Text Classification	—Unverified	0
Active Learning for NLP with Large Language Models	Jan 14, 2024	Active Learningtext-classification	—Unverified	0
A Comprehensive Survey of Text Classification Techniques and Their Research Applications: Observational and Experimental Insights	Jan 11, 2024	Classificationtext-classification	—Unverified	0
Hierarchical Knowledge Distillation on Text Graph for Data-limited Attribute Inference	Jan 10, 2024	AttributeFew-Shot Learning	—Unverified	0
Enhancing Source Code Classification Effectiveness via Prompt Learning Incorporating Knowledge Features	Jan 10, 2024	ClassificationCode Classification	CodeCode Available	0
A Novel Prompt-tuning Method: Incorporating Scenario-specific Concepts into a Verbalizer	Jan 10, 2024	text-classificationText Classification	—Unverified	0
DepressionEmo: A novel dataset for multilabel classification of depression emotions	Jan 9, 2024	text-classificationText Classification	CodeCode Available	1
IDoFew: Intermediate Training Using Dual-Clustering in Language Models for Few Labels Text Classification	Jan 8, 2024	ClusteringLanguage Modeling	—Unverified	0
The Butterfly Effect of Altering Prompts: How Small Changes and Jailbreaks Affect Large Language Model Performance	Jan 8, 2024	Language ModelingLanguage Modelling	CodeCode Available	0
Text Classification Based on Knowledge Graphs and Improved Attention Mechanism	Jan 7, 2024	DecoderKnowledge Graphs	—Unverified	0
MultiSiam: A Multiple Input Siamese Network For Social Media Text Classification And Duplicate Text Detection	Jan 6, 2024	text-classificationText Classification	—Unverified	0
CoT-Driven Framework for Short Text Classification: Enhancing and Transferring Capabilities from Large to Smaller Model	Jan 6, 2024	Common Sense ReasoningMulti-Task Learning	—Unverified	0
Migrating Birds Optimization-Based Feature Selection for Text Classification	Jan 4, 2024	ClassificationComputational Efficiency	—Unverified	0
ReFusion: Improving Natural Language Understanding with Computation-Efficient Retrieval Representation Fusion	Jan 4, 2024	Natural Language UnderstandingNeural Architecture Search	CodeCode Available	0
L3Cube-IndicNews: News-based Short Text and Long Document Classification Datasets in Indic Languages	Jan 4, 2024	ArticlesClassification	CodeCode Available	1
Oceanship: A Large-Scale Dataset for Underwater Audio Target Recognition	Jan 4, 2024	AttributeAudio Classification	CodeCode Available	2
Towards Faithful Explanations for Text Classification with Robustness Improvement and Explanation Guided Training	Dec 29, 2023	text-classificationText Classification	—Unverified	0
Building Efficient Universal Classifiers with Natural Language Inference	Dec 29, 2023	ClassificationNatural Language Inference	CodeCode Available	1
SentinelLMs: Encrypted Input Adaptation and Fine-tuning of Language Models for Private and Secure Inference	Dec 28, 2023	Language Modellingtext-classification	CodeCode Available	1
How Robust are LLMs to In-Context Majority Label Bias?	Dec 27, 2023	In-Context Learningtext-classification	—Unverified	0
TACIT: A Target-Agnostic Feature Disentanglement Framework for Cross-Domain Text Classification	Dec 25, 2023	Cross-Domain Text ClassificationDisentanglement	CodeCode Available	0
TraceFL: Interpretability-Driven Debugging in Federated Learning via Neuron Provenance	Dec 21, 2023	Explainable ModelsFault localization	CodeCode Available	1
Regularized Conditional Alignment for Multi-Domain Text Classification	Dec 18, 2023	Classificationtext-classification	—Unverified	0
Entity or Relation Embeddings? An Analysis of Encoding Strategies for Relation Extraction	Dec 18, 2023	Entity EmbeddingsLanguage Modeling	CodeCode Available	0
Compositional Generalization for Multi-label Text Classification: A Data-Augmentation Approach	Dec 18, 2023	ClassificationData Augmentation	CodeCode Available	1
TDeLTA: A Light-weight and Robust Table Detection Method based on Learning Text Arrangement	Dec 18, 2023	Optical Character Recognition (OCR)Table Detection	—Unverified	0
A Soft Contrastive Learning-based Prompt Model for Few-shot Sentiment Analysis	Dec 16, 2023	ClassificationContrastive Learning	—Unverified	0
Exploring Multi-Level Threats in Telegram Data with AI-Human Annotation: A Preliminary Study	Dec 15, 2023	Information RetrievalText Classification	—Unverified	0
Well-calibrated Confidence Measures for Multi-label Text Classification with a Large Number of Labels	Dec 14, 2023	Conformal PredictionMulti Label Text Classification	—Unverified	0
Object Recognition from Scientific Document based on Compartment Refinement Framework	Dec 14, 2023	ArticlesDocument Layout Analysis	—Unverified	0
Learn or Recall? Revisiting Incremental Learning with Pre-trained Language Models	Dec 13, 2023	Class Incremental LearningIncremental Learning	CodeCode Available	1
ICL Markup: Structuring In-Context Learning using Soft-Token Tags	Dec 12, 2023	In-Context LearningIntent Detection	—Unverified	0
XC-NAS: A New Cellular Encoding Approach for Neural Architecture Search of Multi-path Convolutional Neural Networks	Dec 12, 2023	GPUNeural Architecture Search	—Unverified	0
Revisiting the Role of Label Smoothing in Enhanced Text Sentiment Classification	Dec 11, 2023	Classificationimage-classification	—Unverified	0
The performance of multiple language models in identifying offensive language on social media	Dec 10, 2023	Information RetrievalRetrieval	—Unverified	0
Beyond Gradient and Priors in Privacy Attacks: Leveraging Pooler Layer Inputs of Language Models in Federated Learning	Dec 10, 2023	CoLAFederated Learning	—Unverified	0
Enhancing Medical Specialty Assignment to Patients using NLP Techniques	Dec 9, 2023	Language ModelingLanguage Modelling	—Unverified	0

Show:10 25 50

← PrevPage 12 of 73Next →

All datasets MTEB AG News DBpedia R8 TREC-6 20NEWS UK Key Stage Readability Ohsumed Yahoo! Answers MR Climabench NewsDiscourse

Benchmark Results

#	Model	Metric	Claimed	Verified	Status
1	ST5-XXL	Accuracy	73.42	—	Unverified
2	ST5-XL	Accuracy	72.84	—	Unverified
3	ST5-Large	Accuracy	72.31	—	Unverified
4	Ada Similarity	Accuracy	70.44	—	Unverified
5	SGPT-5.8B-nli	Accuracy	70.14	—	Unverified
6	ST5-Base	Accuracy	69.81	—	Unverified
7	SGPT-5.8B-msmarco	Accuracy	68.13	—	Unverified
8	MPNet-multilingual	Accuracy	67.91	—	Unverified
9	GTR-XXL	Accuracy	67.41	—	Unverified
10	SimCSE-BERT-sup	Accuracy	67.32	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	Mistral-Small-24B + CAPO	Error	15.7	—	Unverified
2	ToWE-SG	Error	14	—	Unverified
3	Qwen2.5-32B + CAPO	Error	12.93	—	Unverified
4	Llama-3.3-70B + CAPO	Error	11.2	—	Unverified
5	Seq2CNN with GWS(50)	Error	9.64	—	Unverified
6	Char-level CNN	Error	9.51	—	Unverified
7	SVDCNN	Error	9.45	—	Unverified
8	VDCN	Error	8.67	—	Unverified
9	Balanced+bi-leaf-RNN	Error	7.9	—	Unverified
10	CCCapsNet	Error	7.61	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	Seq2CNN(50)	Error	2.77	—	Unverified
2	Char-level CNN	Error	1.55	—	Unverified
3	SWEM-concat	Error	1.43	—	Unverified
4	FastText	Error	1.4	—	Unverified
5	VDCN	Error	1.29	—	Unverified
6	CCCapsNet	Error	1.28	—	Unverified
7	Balanced+bi-leaf-RNN	Error	1.2	—	Unverified
8	BERT large UDA	Error	1.09	—	Unverified
9	M-ACNN	Error	1.07	—	Unverified
10	EXAM	Error	1	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	DeBERTa	Accuracy	98.45	—	Unverified
2	C-BERT (ESGNN + BERT)	Accuracy	98.28	—	Unverified
3	ESGNN	Accuracy	98.23	—	Unverified
4	RoBERTaGCN	Accuracy	98.2	—	Unverified
5	BERT	Accuracy	98.17	—	Unverified
6	SGNN	Accuracy	98.09	—	Unverified
7	ERNIE 2.0	Accuracy	98.04	—	Unverified
8	DistilBERT	Accuracy	97.98	—	Unverified
9	Our Model*	Accuracy	97.8	—	Unverified
10	ALBERTv2	Accuracy	97.62	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	TM-Glove	Error	9.96	—	Unverified
2	byte mLSTM7	Error	9.6	—	Unverified
3	DELTA (CNN)	Error	7.8	—	Unverified
4	SWEM-aver	Error	7.8	—	Unverified
5	Capsule-B	Error	7.2	—	Unverified
6	STM+TSED+PT+2L	Error	7.04	—	Unverified
7	GRU-RNN-GLOVE	Error	7	—	Unverified
8	MPAD-path	Error	6.2	—	Unverified
9	VLAWE	Error	5.8	—	Unverified
10	C-LSTM	Error	5.4	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	LinearSVM+TFIDF	Accuracy	93	—	Unverified
2	RoBERTaGCN	Accuracy	89.5	—	Unverified
3	SSGC	Accuracy	88.6	—	Unverified
4	SGC	Accuracy	88.5	—	Unverified
5	SGCN	Accuracy	88.5	—	Unverified
6	RMDL (15 RDLs)	Accuracy	87.91	—	Unverified
7	Sparse Tensor Classifier	Accuracy	87.3	—	Unverified
8	GraphStar	Accuracy	86.9	—	Unverified
9	NABoE-full	Accuracy	86.8	—	Unverified
10	Text GCN	Accuracy	86.34	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	ELECTRA + ANN	F1	99.6	—	Unverified
2	ERNIE + ANN	F1	99.4	—	Unverified
3	XLNet + ANN	F1	99.2	—	Unverified
4	RoBERTa + ANN	F1	98.7	—	Unverified
5	Longformer + ANN	F1	93.9	—	Unverified
6	BERT + ANN	F1	90.5	—	Unverified
7	ALBERT + ANN	F1	79.7	—	Unverified
8	BERT	F1	75	—	Unverified
9	DistilBERT	F1	74.4	—	Unverified
10	Longformer	F1	74	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	RoBERTaGCN	Accuracy	72.8	—	Unverified
2	Our Model*	Accuracy	69.4	—	Unverified
3	SGCN	Accuracy	68.5	—	Unverified
4	SGC	Accuracy	68.5	—	Unverified
5	SSGC	Accuracy	68.5	—	Unverified
6	Text GCN	Accuracy	68.36	—	Unverified
7	GraphStar	Accuracy	64.2	—	Unverified
8	ApproxRepSet	Accuracy	64.06	—	Unverified
9	REL-RWMD k-NN	Accuracy	58.74	—	Unverified
10	CNN+Lowercased	Accuracy	36.2	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	BERT-ITPT-FiT	Accuracy	77.62	—	Unverified
2	DRNN	Accuracy	76.26	—	Unverified
3	DELTA (HAN)	Accuracy	75.1	—	Unverified
4	EXAM	Accuracy	74.8	—	Unverified
5	DNC+CUW	Accuracy	74.3	—	Unverified
6	ULMFiT (Small data)	Accuracy	74.3	—	Unverified
7	CCCapsNet	Accuracy	73.85	—	Unverified
8	SWEM-concat	Accuracy	73.53	—	Unverified
9	FastText	Accuracy	72.3	—	Unverified
10	Seq2CNN(50)	Accuracy	55.39	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	DeBERTa	Accuracy	90.21	—	Unverified
2	RoBERTaGCN	Accuracy	89.7	—	Unverified
3	ERNIE 2.0 (optimized)	Accuracy	89.53	—	Unverified
4	RoBERTa	Accuracy	89.42	—	Unverified
5	ERNIE 2.0	Accuracy	88.97	—	Unverified
6	BERT	Accuracy	86.94	—	Unverified
7	ALBERTv2	Accuracy	86.02	—	Unverified
8	DistilBERT	Accuracy	85.31	—	Unverified
9	SSGC	Accuracy	76.7	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	CliReBERT (P0L3/clirebert_clirevocab_uncased)	Evaluation Macro F1	0.65	—	Unverified
2	ClimateBERT (climatebert/distilroberta-base-climate-f)	Evaluation Macro F1	0.64	—	Unverified
3	BERT (google-bert/bert-base-uncased)	Evaluation Macro F1	0.61	—	Unverified
4	CliSciBERT (P0L3/cliscibert_scivocab_uncased)	Evaluation Macro F1	0.61	—	Unverified
5	SciBERT (allenai/scibert_scivocab_cased)	Evaluation Macro F1	0.59	—	Unverified
6	DistilRoBERTa (distilbert/distilroberta-base)	Evaluation Macro F1	0.58	—	Unverified
7	SciClimateBERT (P0L3/sciclimatebert)	Evaluation Macro F1	0.58	—	Unverified
8	RoBERTa (FacebookAI/roberta-base)	Evaluation Macro F1	0.57	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	Human (Post-Rec.) (Spangher et al., 2021)	macro F1	73.69	—	Unverified
2	MT-Mac (Spangher et al., 2021)	macro F1	63.46	—	Unverified
3	MT-Mic (Spangher et al., 2021)	macro F1	61.89	—	Unverified
4	RL-IP/TT (Choubey et al., 2021)	macro F1	57	—	Unverified
5	Document LSTM + Document encoding (Choubey et al., 2020)	macro F1	54.4	—	Unverified
6	CRF Fine-grained (Choubey et al., 2020)	macro F1	52.9	—	Unverified
7	Human (Blind) (Spangher et al., 2021)	macro F1	46.18	—	Unverified
8	Feature-based (SVM) (Choubey et al., 2020)	macro F1	38.3	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	1-6 BertGCN	Accuracy	96.6	—	Unverified
2	GraphStar	Accuracy	95	—	Unverified
3	Our Model*	Accuracy	94.6	—	Unverified
4	SSGC	Accuracy	94.5	—	Unverified
5	SGCN	Accuracy	94	—	Unverified
6	SGC	Accuracy	94	—	Unverified
7	Text GCN	Accuracy	93.56	—	Unverified
8	TM-Glove	Accuracy	89.14	—	Unverified