Text Classification

Text Classification is the task of assigning a sentence or document an appropriate category. The categories depend on the chosen dataset and can range from topics.

Text Classification problems include emotion classification, news classification, citation intent classification, among others. Benchmark datasets for evaluating text classification capabilities include GLUE, AGNews, among others.

In recent years, deep learning techniques like XLNet and RoBERTa have attained some of the biggest performance jumps for text classification problems.

( Image credit: Text Classification Algorithms: A Survey )

Papers

Recently Added Most Hyped Most Active Needs Verification Most Verified

Showing 3251–3300 of 3635 papers

Title	Date	Tasks	Status	Hype
Predicting Audience's Laughter Using Convolutional Neural Network	Feb 8, 2017	General Classificationtext-classification	—Unverified	0
All-but-the-Top: Simple and Effective Postprocessing for Word Representations	Feb 5, 2017	AllGeneral Classification	CodeCode Available	0
Bangla Word Clustering Based on Tri-gram, 4-gram and 5-gram Language Model	Jan 27, 2017	ClusteringLanguage Modeling	—Unverified	0
Aggressive Sampling for Multi-class to Binary Reduction with Applications to Text Classification	Jan 23, 2017	Binary ClassificationClassification	CodeCode Available	0
Semantic classifier approach to document classification	Jan 16, 2017	ClassificationDocument Classification	—Unverified	0
Fast mixing for Latent Dirichlet allocation	Jan 11, 2017	text-classificationText Classification	—Unverified	0
Heterogeneous domain adaptation: An unsupervised approach	Jan 10, 2017	Domain Adaptationtext-classification	—Unverified	0
Universal Dependencies-based syntactic features in detecting human translation varieties	Jan 1, 2017	Machine TranslationText Classification	—Unverified	0
SCDV : Sparse Composite Document Vectors using soft clustering over distributional representations	Dec 20, 2016	ClusteringInformation Retrieval	CodeCode Available	0
Unraveling reported dreams with text analytics	Dec 12, 2016	text-classificationText Classification	—Unverified	0
FastText.zip: Compressing text classification models	Dec 12, 2016	General ClassificationQuantization	CodeCode Available	1
Pairwise FastText Classifier for Entity Disambiguation	Dec 1, 2016	Entity DisambiguationGeneral Classification	—Unverified	0
Learning cascaded latent variable models for biomedical text classification	Dec 1, 2016	ClassificationGeneral Classification	—Unverified	0
The Role of Features and Context on Suicide Ideation Detection	Dec 1, 2016	Text Classification	—Unverified	0
Supervised Word Mover's Distance	Dec 1, 2016	Document ClassificationGeneral Classification	CodeCode Available	0
Translationese: Between Human and Machine Translation	Dec 1, 2016	Language IdentificationMachine Translation	—Unverified	0
High Accuracy Rule-based Question Classification using Question Syntax and Semantics	Dec 1, 2016	BIG-bench Machine LearningClassification	—Unverified	0
Large-scale Multi-class and Hierarchical Product Categorization for an E-commerce Giant	Dec 1, 2016	General ClassificationProduct Categorization	—Unverified	0
TextImager: a Distributed UIMA-based System for NLP	Dec 1, 2016	Sentiment AnalysisText Classification	—Unverified	0
Robust Text Classification for Sparsely Labelled Data Using Multi-level Embeddings	Dec 1, 2016	ClassificationFeature Engineering	—Unverified	0
On the Impact of Seed Words on Sentiment Polarity Lexicon Induction	Dec 1, 2016	Sentiment AnalysisText Classification	CodeCode Available	0
Weighted Neural Bag-of-n-grams Model: New Baselines for Text Classification	Dec 1, 2016	General Classificationtext-classification	CodeCode Available	0
Advancing Linguistic Features and Insights by Label-informed Feature Grouping: An Exploration in the Context of Native Language Identification	Dec 1, 2016	ClusteringLanguage Acquisition	—Unverified	0
Dialogue Act Classification in Domain-Independent Conversations Using a Deep Recurrent Neural Network	Dec 1, 2016	Automatic Speech Recognition (ASR)Dialogue Act Classification	—Unverified	0
Hashtag Recommendation with Topical Attention-Based LSTM	Dec 1, 2016	Collaborative FilteringFeature Engineering	—Unverified	0
UTCNN: a Deep Learning Model of Stance Classification on Social Media Text	Dec 1, 2016	Document ClassificationGeneral Classification	—Unverified	0
Data, tools and resources for mining social media drug chatter	Dec 1, 2016	EpidemiologyGeneral Classification	—Unverified	0
Language and Dialect Discrimination Using Compression-Inspired Language Models	Dec 1, 2016	Authorship AttributionDialect Identification	—Unverified	0
Acquisition of semantic relations between terms: how far can we get with standard NLP tools?	Dec 1, 2016	Coreference ResolutionLemmatization	—Unverified	0
Recurrent Neural Network with Word Embedding for Complaint Classification	Dec 1, 2016	ClassificationGeneral Classification	—Unverified	0
Sentence Based Discourse Classification for Hindi Story Text-to-Speech (TTS) System	Dec 1, 2016	General ClassificationSentence	—Unverified	0
Cancer Hallmark Text Classification Using Convolutional Neural Networks	Dec 1, 2016	ClassificationGeneral Classification	—Unverified	0
A New Feature Selection Technique Combined with ELM Feature Space for Text Classification	Dec 1, 2016	feature selectionGeneral Classification	—Unverified	0
Learning Non-Linear Functions for Text Classification	Dec 1, 2016	ClassificationGeneral Classification	—Unverified	0
Zooming in on Gender Differences in Social Media	Dec 1, 2016	General ClassificationSociology	—Unverified	0
Automatic Construction of Large Readability Corpora	Dec 1, 2016	Text ClassificationText Simplification	—Unverified	0
Identity-sensitive Word Embedding through Heterogeneous Networks	Nov 29, 2016	Network Embeddingtext-classification	—Unverified	0
Improving Multi-Document Summarization via Text Classification	Nov 28, 2016	ClassificationDocument Summarization	—Unverified	0
Text Classification Improved by Integrating Bidirectional LSTM with Two-dimensional Max Pooling	Nov 21, 2016	Binary ClassificationClassification	CodeCode Available	0
A Way out of the Odyssey: Analyzing and Combining Recent Insights for LSTMs	Nov 16, 2016	General Classificationtext-classification	—Unverified	0
Character-level Convolutional Network for Text Classification Applied to Chinese Corpus	Nov 14, 2016	ClassificationGeneral Classification	CodeCode Available	0
AC-BLSTM: Asymmetric Convolutional Bidirectional LSTM Networks for Text Classification	Nov 7, 2016	ClassificationGeneral Classification	CodeCode Available	0
Bag of What? Simple Noun Phrase Extraction for Text Analysis	Nov 1, 2016	Text Classification	—Unverified	0
\#WhoAmI in 160 Characters? Classifying Social Identities Based on Twitter Profile Descriptions	Nov 1, 2016	Text Classification	—Unverified	0
A Graph Degeneracy-based Approach to Keyword Extraction	Nov 1, 2016	Document ClassificationInformation Retrieval	CodeCode Available	0
Regularizing Text Categorization with Clusters of Words	Nov 1, 2016	Language ModelingLanguage Modelling	—Unverified	0
Weakly Supervised Tweet Stance Classification by Relational Bootstrapping	Nov 1, 2016	ClassificationGeneral Classification	—Unverified	0
Recurrent Residual Learning for Sequence Classification	Nov 1, 2016	ClassificationGeneral Classification	—Unverified	0
Emotion Distribution Learning from Texts	Nov 1, 2016	Emotion ClassificationEmotion Recognition	—Unverified	0
Attention-based LSTM Network for Cross-Lingual Sentiment Classification	Nov 1, 2016	ClassificationCross-Lingual Sentiment Classification	—Unverified	0

Show:10 25 50

← PrevPage 66 of 73Next →

All datasets MTEB AG News DBpedia R8 TREC-6 20NEWS UK Key Stage Readability Ohsumed Yahoo! Answers MR Climabench NewsDiscourse

Benchmark Results

#	Model	Metric	Claimed	Verified	Status
1	ST5-XXL	Accuracy	73.42	—	Unverified
2	ST5-XL	Accuracy	72.84	—	Unverified
3	ST5-Large	Accuracy	72.31	—	Unverified
4	Ada Similarity	Accuracy	70.44	—	Unverified
5	SGPT-5.8B-nli	Accuracy	70.14	—	Unverified
6	ST5-Base	Accuracy	69.81	—	Unverified
7	SGPT-5.8B-msmarco	Accuracy	68.13	—	Unverified
8	MPNet-multilingual	Accuracy	67.91	—	Unverified
9	GTR-XXL	Accuracy	67.41	—	Unverified
10	SimCSE-BERT-sup	Accuracy	67.32	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	Mistral-Small-24B + CAPO	Error	15.7	—	Unverified
2	ToWE-SG	Error	14	—	Unverified
3	Qwen2.5-32B + CAPO	Error	12.93	—	Unverified
4	Llama-3.3-70B + CAPO	Error	11.2	—	Unverified
5	Seq2CNN with GWS(50)	Error	9.64	—	Unverified
6	Char-level CNN	Error	9.51	—	Unverified
7	SVDCNN	Error	9.45	—	Unverified
8	VDCN	Error	8.67	—	Unverified
9	Balanced+bi-leaf-RNN	Error	7.9	—	Unverified
10	CCCapsNet	Error	7.61	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	Seq2CNN(50)	Error	2.77	—	Unverified
2	Char-level CNN	Error	1.55	—	Unverified
3	SWEM-concat	Error	1.43	—	Unverified
4	FastText	Error	1.4	—	Unverified
5	VDCN	Error	1.29	—	Unverified
6	CCCapsNet	Error	1.28	—	Unverified
7	Balanced+bi-leaf-RNN	Error	1.2	—	Unverified
8	BERT large UDA	Error	1.09	—	Unverified
9	M-ACNN	Error	1.07	—	Unverified
10	EXAM	Error	1	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	DeBERTa	Accuracy	98.45	—	Unverified
2	C-BERT (ESGNN + BERT)	Accuracy	98.28	—	Unverified
3	ESGNN	Accuracy	98.23	—	Unverified
4	RoBERTaGCN	Accuracy	98.2	—	Unverified
5	BERT	Accuracy	98.17	—	Unverified
6	SGNN	Accuracy	98.09	—	Unverified
7	ERNIE 2.0	Accuracy	98.04	—	Unverified
8	DistilBERT	Accuracy	97.98	—	Unverified
9	Our Model*	Accuracy	97.8	—	Unverified
10	ALBERTv2	Accuracy	97.62	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	TM-Glove	Error	9.96	—	Unverified
2	byte mLSTM7	Error	9.6	—	Unverified
3	DELTA (CNN)	Error	7.8	—	Unverified
4	SWEM-aver	Error	7.8	—	Unverified
5	Capsule-B	Error	7.2	—	Unverified
6	STM+TSED+PT+2L	Error	7.04	—	Unverified
7	GRU-RNN-GLOVE	Error	7	—	Unverified
8	MPAD-path	Error	6.2	—	Unverified
9	VLAWE	Error	5.8	—	Unverified
10	C-LSTM	Error	5.4	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	LinearSVM+TFIDF	Accuracy	93	—	Unverified
2	RoBERTaGCN	Accuracy	89.5	—	Unverified
3	SSGC	Accuracy	88.6	—	Unverified
4	SGC	Accuracy	88.5	—	Unverified
5	SGCN	Accuracy	88.5	—	Unverified
6	RMDL (15 RDLs)	Accuracy	87.91	—	Unverified
7	Sparse Tensor Classifier	Accuracy	87.3	—	Unverified
8	GraphStar	Accuracy	86.9	—	Unverified
9	NABoE-full	Accuracy	86.8	—	Unverified
10	Text GCN	Accuracy	86.34	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	ELECTRA + ANN	F1	99.6	—	Unverified
2	ERNIE + ANN	F1	99.4	—	Unverified
3	XLNet + ANN	F1	99.2	—	Unverified
4	RoBERTa + ANN	F1	98.7	—	Unverified
5	Longformer + ANN	F1	93.9	—	Unverified
6	BERT + ANN	F1	90.5	—	Unverified
7	ALBERT + ANN	F1	79.7	—	Unverified
8	BERT	F1	75	—	Unverified
9	DistilBERT	F1	74.4	—	Unverified
10	Longformer	F1	74	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	RoBERTaGCN	Accuracy	72.8	—	Unverified
2	Our Model*	Accuracy	69.4	—	Unverified
3	SSGC	Accuracy	68.5	—	Unverified
4	SGCN	Accuracy	68.5	—	Unverified
5	SGC	Accuracy	68.5	—	Unverified
6	Text GCN	Accuracy	68.36	—	Unverified
7	GraphStar	Accuracy	64.2	—	Unverified
8	ApproxRepSet	Accuracy	64.06	—	Unverified
9	REL-RWMD k-NN	Accuracy	58.74	—	Unverified
10	CNN+Lowercased	Accuracy	36.2	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	BERT-ITPT-FiT	Accuracy	77.62	—	Unverified
2	DRNN	Accuracy	76.26	—	Unverified
3	DELTA (HAN)	Accuracy	75.1	—	Unverified
4	EXAM	Accuracy	74.8	—	Unverified
5	DNC+CUW	Accuracy	74.3	—	Unverified
6	ULMFiT (Small data)	Accuracy	74.3	—	Unverified
7	CCCapsNet	Accuracy	73.85	—	Unverified
8	SWEM-concat	Accuracy	73.53	—	Unverified
9	FastText	Accuracy	72.3	—	Unverified
10	Seq2CNN(50)	Accuracy	55.39	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	DeBERTa	Accuracy	90.21	—	Unverified
2	RoBERTaGCN	Accuracy	89.7	—	Unverified
3	ERNIE 2.0 (optimized)	Accuracy	89.53	—	Unverified
4	RoBERTa	Accuracy	89.42	—	Unverified
5	ERNIE 2.0	Accuracy	88.97	—	Unverified
6	BERT	Accuracy	86.94	—	Unverified
7	ALBERTv2	Accuracy	86.02	—	Unverified
8	DistilBERT	Accuracy	85.31	—	Unverified
9	SSGC	Accuracy	76.7	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	CliReBERT (P0L3/clirebert_clirevocab_uncased)	Evaluation Macro F1	0.65	—	Unverified
2	ClimateBERT (climatebert/distilroberta-base-climate-f)	Evaluation Macro F1	0.64	—	Unverified
3	BERT (google-bert/bert-base-uncased)	Evaluation Macro F1	0.61	—	Unverified
4	CliSciBERT (P0L3/cliscibert_scivocab_uncased)	Evaluation Macro F1	0.61	—	Unverified
5	SciBERT (allenai/scibert_scivocab_cased)	Evaluation Macro F1	0.59	—	Unverified
6	DistilRoBERTa (distilbert/distilroberta-base)	Evaluation Macro F1	0.58	—	Unverified
7	SciClimateBERT (P0L3/sciclimatebert)	Evaluation Macro F1	0.58	—	Unverified
8	RoBERTa (FacebookAI/roberta-base)	Evaluation Macro F1	0.57	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	Human (Post-Rec.) (Spangher et al., 2021)	macro F1	73.69	—	Unverified
2	MT-Mac (Spangher et al., 2021)	macro F1	63.46	—	Unverified
3	MT-Mic (Spangher et al., 2021)	macro F1	61.89	—	Unverified
4	RL-IP/TT (Choubey et al., 2021)	macro F1	57	—	Unverified
5	Document LSTM + Document encoding (Choubey et al., 2020)	macro F1	54.4	—	Unverified
6	CRF Fine-grained (Choubey et al., 2020)	macro F1	52.9	—	Unverified
7	Human (Blind) (Spangher et al., 2021)	macro F1	46.18	—	Unverified
8	Feature-based (SVM) (Choubey et al., 2020)	macro F1	38.3	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	1-6 BertGCN	Accuracy	96.6	—	Unverified
2	GraphStar	Accuracy	95	—	Unverified
3	Our Model*	Accuracy	94.6	—	Unverified
4	SSGC	Accuracy	94.5	—	Unverified
5	SGC	Accuracy	94	—	Unverified
6	SGCN	Accuracy	94	—	Unverified
7	Text GCN	Accuracy	93.56	—	Unverified
8	TM-Glove	Accuracy	89.14	—	Unverified