Text Classification

Text Classification is the task of assigning a sentence or document an appropriate category. The categories depend on the chosen dataset and can range from topics.

Text Classification problems include emotion classification, news classification, citation intent classification, among others. Benchmark datasets for evaluating text classification capabilities include GLUE, AGNews, among others.

In recent years, deep learning techniques like XLNet and RoBERTa have attained some of the biggest performance jumps for text classification problems.

( Image credit: Text Classification Algorithms: A Survey )

Papers

Recently Added Most Hyped Most Active Needs Verification Most Verified

Showing 1451–1500 of 3635 papers

Title	Date	Tasks	Status
From Fake to Hyperpartisan News Detection Using Domain Adaptation	Aug 4, 2023	ClusteringContrastive Learning	—Unverified
From Image to Text Classification: A Novel Approach based on Clustering Word Embeddings	Jul 25, 2017	ClusteringGeneral Classification	—Unverified
From Measurement Instruments to Data: Leveraging Theory-Driven Synthetic Training Data for Classifying Social Constructs	Oct 16, 2024	Classificationtext-classification	—Unverified
Community-based Behavioral Understanding of Crisis Activity Concerns using Social Media Data: A Study on the 2023 Canadian Wildfires in New York City	Jan 22, 2024	text-classificationText Classification	—Unverified
Accurate Use of Label Dependency in Multi-Label Text Classification Through the Lens of Causality	Oct 11, 2023	AttributeCausal Inference	—Unverified
Community Evaluation and Exchange of Word Vectors at wordvectors.org	Jun 1, 2014	Text ClassificationWord Embeddings	—Unverified
From text saliency to linguistic objects: learning linguistic interpretable markers with a multi-channels convolutional architecture	Apr 7, 2020	ClassificationGeneral Classification	—Unverified
From Universal Language Model to Downstream Task: Improving RoBERTa-Based Vietnamese Hate Speech Detection	Feb 24, 2021	Hate Speech DetectionLanguage Modeling	—Unverified
From Visualisation to Hypothesis Construction for Second Language Acquisition	Oct 1, 2014	Language AcquisitionLanguage Identification	—Unverified
Fully Connected Neural Network with Advance Preprocessor to Identify Aggression over Facebook and Twitter	Aug 1, 2018	Aggression IdentificationHate Speech Detection	—Unverified
Fully Convolutional Networks for Text Classification	Feb 14, 2019	ClassificationGeneral Classification	—Unverified
Comparative Analyses of Textual Contents and Styles of Five Major Japanese Newspapers	Nov 1, 2013	Morphological AnalysisText Classification	—Unverified
BYOC: Personalized Few-Shot Classification with Co-Authored Class Descriptions	Oct 9, 2023	Few-Shot Text Classificationtext-classification	—Unverified
funSentiment at SemEval-2017 Task 4: Topic-Based Message Sentiment Classification by Exploiting Word Embeddings, Text Features and Target Contexts	Aug 1, 2017	ClassificationGeneral Classification	—Unverified
Comparative Analysis of Text Classification Approaches in Electronic Health Records	May 8, 2020	ClassificationGeneral Classification	—Unverified
A Simple and Efficient Ensemble Classifier Combining Multiple Neural Network Models on Social Media Datasets in Vietnamese	Sep 28, 2020	text-classificationText Classification	—Unverified
Fusing Label Embedding into BERT: An Efficient Improvement for Text Classification	Aug 1, 2021	text-classificationText Classification	—Unverified
Comparative Study of Long Document Classification	Nov 1, 2021	BIG-bench Machine LearningClassification	—Unverified
A Novel Framework for Recurrent Neural Networks with Enhancing Information Processing and Transmission between Units	Jun 2, 2018	General Classificationimage-classification	—Unverified
Future Token Prediction -- Causal Language Modelling with Per-Token Semantic State Vector for Multi-Token Prediction	Oct 23, 2024	DecoderLanguage Modelling	—Unverified
Enhancing Disinformation Detection with Explainable AI and Named Entity Replacement	Feb 7, 2025	text-classificationText Classification	—Unverified
Fuzzy Fingerprinting Transformer Language-Models for Emotion Recognition in Conversations	Sep 8, 2023	Emotion RecognitionEmotion Recognition in Conversation	—Unverified
Enhancing Chinese Multi-Label Text Classification Performance with Response-based Knowledge Distillation	Nov 1, 2022	Knowledge DistillationMulti Label Text Classification	—Unverified
ScoreGAN: A Fraud Review Detector based on Multi Task Learning of Regulated GAN with Data Augmentation	Jun 11, 2020	Data AugmentationGenerative Adversarial Network	—Unverified
Comparing Automatic and Human Evaluation of Local Explanations for Text Classification	Jun 1, 2018	General ClassificationRecommendation Systems	—Unverified
A simple log-based loss function for ordinal text classification	Nov 16, 2021	Classificationtext-classification	—Unverified
Comparing BERT against traditional machine learning text classification	May 26, 2020	BIG-bench Machine LearningClassification	—Unverified
Gated Multi-Task Network for Text Classification	Jun 1, 2018	ClassificationGeneral Classification	—Unverified
Building the Chinese Open Wordnet (COW): Starting from Core Synsets	Oct 1, 2013	Information RetrievalText Classification	—Unverified
Hierarchical Convolutional Attention Networks for Text Classification	Jul 1, 2018	ClassificationDocument Classification	—Unverified
Gender Prediction in English-Hindi Code-Mixed Social Media Content : Corpus and Baseline System	Jun 14, 2018	Author ProfilingGender Prediction	—Unverified
General Embedding vs. Task-Specific Embedding: A Comparative Approach to Enhancing NLP Performance	Jan 30, 2025	Multi-Task Learning	—Unverified
Generalizable Natural Language Processing Framework for Migraine Reporting from Social Media	Dec 23, 2022	Managementtext-classification	—Unverified
Comparing Machine Learning and Deep Learning Approaches on NLP Tasks for the Italian Language	May 1, 2020	BIG-bench Machine LearningClassification	—Unverified
Generalized Zero-shot ICD Coding	Sep 28, 2019	ClassificationGeneral Classification	—Unverified
Enhancing Black-Box Few-Shot Text Classification with Prompt-Based Data Augmentation	May 23, 2023	Data AugmentationFew-Shot Text Classification	—Unverified
A Novel Efficient and Effective Preprocessing Strategy for Text Classification	Nov 16, 2021	Classificationtext-classification	—Unverified
Enhance Robustness of Sequence Labelling with Masked Adversarial Training	Nov 1, 2020	Chunkingnamed-entity-recognition	—Unverified
Enhanced Aspect Level Sentiment Classification with Auxiliary Memory	Aug 1, 2018	ClassificationFeature Engineering	—Unverified
Comparing zero-shot self-explanations with human rationales in multilingual text classification	Oct 4, 2024	Multilingual text classificationSentiment Analysis	—Unverified
Generating Natural Language Adversarial Examples on a Large Scale with Generative Models	Mar 10, 2020	Adversarial TextGeneral Classification	—Unverified
Active learning for medical code assignment	Apr 12, 2021	Active LearningDecision Making	—Unverified
Generating Plausible Counterfactual Explanations for Deep Transformers in Financial Text Classification	Oct 23, 2020	counterfactualExplainable Artificial Intelligence (XAI)	—Unverified
On the Transferability of Adversarial Attacksagainst Neural Text Classifier	Nov 17, 2020	text-classificationText Classification	—Unverified
Generation-Distillation for Efficient Natural Language Understanding in Low-Data Settings	Jan 25, 2020	General ClassificationKnowledge Distillation	—Unverified
Hierarchical Knowledge Distillation on Text Graph for Data-limited Attribute Inference	Jan 10, 2024	AttributeFew-Shot Learning	—Unverified
Generative AI Text Classification using Ensemble LLM Approaches	Sep 14, 2023	ClassificationLanguage Modelling	—Unverified
English-Malay Cross-Lingual Embedding Alignment using Bilingual Lexicon Augmentation	May 1, 2022	Cross-Lingual Word EmbeddingsMachine Translation	—Unverified
Comparison of Representations of Named Entities for Document Classification	Jul 1, 2018	ClassificationDocument Classification	—Unverified
A Novel Content Enriching Model for Microblog Using News Corpus	Jun 1, 2014	Text ClassificationTopic Models	—Unverified

Show:10 25 50

← PrevPage 30 of 73Next →

All datasets MTEB AG News DBpedia R8 TREC-6 20NEWS UK Key Stage Readability Ohsumed Yahoo! Answers MR Climabench NewsDiscourse

Benchmark Results

#	Model	Metric	Claimed	Verified	Status
1	ST5-XXL	Accuracy	73.42	—	Unverified
2	ST5-XL	Accuracy	72.84	—	Unverified
3	ST5-Large	Accuracy	72.31	—	Unverified
4	Ada Similarity	Accuracy	70.44	—	Unverified
5	SGPT-5.8B-nli	Accuracy	70.14	—	Unverified
6	ST5-Base	Accuracy	69.81	—	Unverified
7	SGPT-5.8B-msmarco	Accuracy	68.13	—	Unverified
8	MPNet-multilingual	Accuracy	67.91	—	Unverified
9	GTR-XXL	Accuracy	67.41	—	Unverified
10	SimCSE-BERT-sup	Accuracy	67.32	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	Mistral-Small-24B + CAPO	Error	15.7	—	Unverified
2	ToWE-SG	Error	14	—	Unverified
3	Qwen2.5-32B + CAPO	Error	12.93	—	Unverified
4	Llama-3.3-70B + CAPO	Error	11.2	—	Unverified
5	Seq2CNN with GWS(50)	Error	9.64	—	Unverified
6	Char-level CNN	Error	9.51	—	Unverified
7	SVDCNN	Error	9.45	—	Unverified
8	VDCN	Error	8.67	—	Unverified
9	Balanced+bi-leaf-RNN	Error	7.9	—	Unverified
10	CCCapsNet	Error	7.61	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	Seq2CNN(50)	Error	2.77	—	Unverified
2	Char-level CNN	Error	1.55	—	Unverified
3	SWEM-concat	Error	1.43	—	Unverified
4	FastText	Error	1.4	—	Unverified
5	VDCN	Error	1.29	—	Unverified
6	CCCapsNet	Error	1.28	—	Unverified
7	Balanced+bi-leaf-RNN	Error	1.2	—	Unverified
8	BERT large UDA	Error	1.09	—	Unverified
9	M-ACNN	Error	1.07	—	Unverified
10	EXAM	Error	1	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	DeBERTa	Accuracy	98.45	—	Unverified
2	C-BERT (ESGNN + BERT)	Accuracy	98.28	—	Unverified
3	ESGNN	Accuracy	98.23	—	Unverified
4	RoBERTaGCN	Accuracy	98.2	—	Unverified
5	BERT	Accuracy	98.17	—	Unverified
6	SGNN	Accuracy	98.09	—	Unverified
7	ERNIE 2.0	Accuracy	98.04	—	Unverified
8	DistilBERT	Accuracy	97.98	—	Unverified
9	Our Model*	Accuracy	97.8	—	Unverified
10	ALBERTv2	Accuracy	97.62	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	TM-Glove	Error	9.96	—	Unverified
2	byte mLSTM7	Error	9.6	—	Unverified
3	DELTA (CNN)	Error	7.8	—	Unverified
4	SWEM-aver	Error	7.8	—	Unverified
5	Capsule-B	Error	7.2	—	Unverified
6	STM+TSED+PT+2L	Error	7.04	—	Unverified
7	GRU-RNN-GLOVE	Error	7	—	Unverified
8	MPAD-path	Error	6.2	—	Unverified
9	VLAWE	Error	5.8	—	Unverified
10	C-LSTM	Error	5.4	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	LinearSVM+TFIDF	Accuracy	93	—	Unverified
2	RoBERTaGCN	Accuracy	89.5	—	Unverified
3	SSGC	Accuracy	88.6	—	Unverified
4	SGC	Accuracy	88.5	—	Unverified
5	SGCN	Accuracy	88.5	—	Unverified
6	RMDL (15 RDLs)	Accuracy	87.91	—	Unverified
7	Sparse Tensor Classifier	Accuracy	87.3	—	Unverified
8	GraphStar	Accuracy	86.9	—	Unverified
9	NABoE-full	Accuracy	86.8	—	Unverified
10	Text GCN	Accuracy	86.34	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	ELECTRA + ANN	F1	99.6	—	Unverified
2	ERNIE + ANN	F1	99.4	—	Unverified
3	XLNet + ANN	F1	99.2	—	Unverified
4	RoBERTa + ANN	F1	98.7	—	Unverified
5	Longformer + ANN	F1	93.9	—	Unverified
6	BERT + ANN	F1	90.5	—	Unverified
7	ALBERT + ANN	F1	79.7	—	Unverified
8	BERT	F1	75	—	Unverified
9	DistilBERT	F1	74.4	—	Unverified
10	Longformer	F1	74	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	RoBERTaGCN	Accuracy	72.8	—	Unverified
2	Our Model*	Accuracy	69.4	—	Unverified
3	SSGC	Accuracy	68.5	—	Unverified
4	SGCN	Accuracy	68.5	—	Unverified
5	SGC	Accuracy	68.5	—	Unverified
6	Text GCN	Accuracy	68.36	—	Unverified
7	GraphStar	Accuracy	64.2	—	Unverified
8	ApproxRepSet	Accuracy	64.06	—	Unverified
9	REL-RWMD k-NN	Accuracy	58.74	—	Unverified
10	CNN+Lowercased	Accuracy	36.2	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	BERT-ITPT-FiT	Accuracy	77.62	—	Unverified
2	DRNN	Accuracy	76.26	—	Unverified
3	DELTA (HAN)	Accuracy	75.1	—	Unverified
4	EXAM	Accuracy	74.8	—	Unverified
5	DNC+CUW	Accuracy	74.3	—	Unverified
6	ULMFiT (Small data)	Accuracy	74.3	—	Unverified
7	CCCapsNet	Accuracy	73.85	—	Unverified
8	SWEM-concat	Accuracy	73.53	—	Unverified
9	FastText	Accuracy	72.3	—	Unverified
10	Seq2CNN(50)	Accuracy	55.39	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	DeBERTa	Accuracy	90.21	—	Unverified
2	RoBERTaGCN	Accuracy	89.7	—	Unverified
3	ERNIE 2.0 (optimized)	Accuracy	89.53	—	Unverified
4	RoBERTa	Accuracy	89.42	—	Unverified
5	ERNIE 2.0	Accuracy	88.97	—	Unverified
6	BERT	Accuracy	86.94	—	Unverified
7	ALBERTv2	Accuracy	86.02	—	Unverified
8	DistilBERT	Accuracy	85.31	—	Unverified
9	SSGC	Accuracy	76.7	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	CliReBERT (P0L3/clirebert_clirevocab_uncased)	Evaluation Macro F1	0.65	—	Unverified
2	ClimateBERT (climatebert/distilroberta-base-climate-f)	Evaluation Macro F1	0.64	—	Unverified
3	BERT (google-bert/bert-base-uncased)	Evaluation Macro F1	0.61	—	Unverified
4	CliSciBERT (P0L3/cliscibert_scivocab_uncased)	Evaluation Macro F1	0.61	—	Unverified
5	SciBERT (allenai/scibert_scivocab_cased)	Evaluation Macro F1	0.59	—	Unverified
6	DistilRoBERTa (distilbert/distilroberta-base)	Evaluation Macro F1	0.58	—	Unverified
7	SciClimateBERT (P0L3/sciclimatebert)	Evaluation Macro F1	0.58	—	Unverified
8	RoBERTa (FacebookAI/roberta-base)	Evaluation Macro F1	0.57	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	Human (Post-Rec.) (Spangher et al., 2021)	macro F1	73.69	—	Unverified
2	MT-Mac (Spangher et al., 2021)	macro F1	63.46	—	Unverified
3	MT-Mic (Spangher et al., 2021)	macro F1	61.89	—	Unverified
4	RL-IP/TT (Choubey et al., 2021)	macro F1	57	—	Unverified
5	Document LSTM + Document encoding (Choubey et al., 2020)	macro F1	54.4	—	Unverified
6	CRF Fine-grained (Choubey et al., 2020)	macro F1	52.9	—	Unverified
7	Human (Blind) (Spangher et al., 2021)	macro F1	46.18	—	Unverified
8	Feature-based (SVM) (Choubey et al., 2020)	macro F1	38.3	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	1-6 BertGCN	Accuracy	96.6	—	Unverified
2	GraphStar	Accuracy	95	—	Unverified
3	Our Model*	Accuracy	94.6	—	Unverified
4	SSGC	Accuracy	94.5	—	Unverified
5	SGC	Accuracy	94	—	Unverified
6	SGCN	Accuracy	94	—	Unverified
7	Text GCN	Accuracy	93.56	—	Unverified
8	TM-Glove	Accuracy	89.14	—	Unverified