Text Classification

Text Classification is the task of assigning a sentence or document an appropriate category. The categories depend on the chosen dataset and can range from topics.

Text Classification problems include emotion classification, news classification, citation intent classification, among others. Benchmark datasets for evaluating text classification capabilities include GLUE, AGNews, among others.

In recent years, deep learning techniques like XLNet and RoBERTa have attained some of the biggest performance jumps for text classification problems.

( Image credit: Text Classification Algorithms: A Survey )

Papers

Recently Added Most Hyped Most Active Needs Verification Most Verified

Showing 2551–2600 of 3635 papers

Title	Date	Tasks	Status
A Unified System for Aggression Identification in English Code-Mixed and Uni-Lingual Texts	Jan 15, 2020	Aggression IdentificationCross-Lingual Transfer	—Unverified
Multi-Source Domain Adaptation for Text Classification via DistanceNet-Bandits	Jan 13, 2020	ClassificationDomain Adaptation	—Unverified
Aggregated Learning: A Vector-Quantization Approach to Learning Neural Network Classifiers	Jan 12, 2020	ClassificationGeneral Classification	CodeCode Available
Pretrained Generalized Autoregressive Model with Adaptive Probabilistic Label Cluster for Extreme Multi-label Text Classification	Jan 1, 2020	Multi Label Text ClassificationMulti-Label Text Classification	—Unverified
Active Learning in Video Tracking	Dec 29, 2019	Active LearningComputational Efficiency	—Unverified
Encoding word order in complex embeddings	Dec 27, 2019	Language ModelingLanguage Modelling	CodeCode Available
Text Classification for Azerbaijani Language Using Machine Learning and Embedding	Dec 26, 2019	BIG-bench Machine LearningClassification	—Unverified
TextNAS: A Neural Architecture Search Space tailored for Text Representation	Dec 23, 2019	General ClassificationNatural Language Inference	—Unverified
Siamese Networks for Large-Scale Author Identification	Dec 23, 2019	Authorship AttributionClassification	—Unverified
Empirical Comparisons of CNN with Other Learning Algorithms for Text Classification in Legal Document Review	Dec 19, 2019	BIG-bench Machine LearningClassification	—Unverified
A Framework for Explainable Text Classification in Legal Document Review	Dec 19, 2019	ClassificationGeneral Classification	—Unverified
PySS3: A Python package implementing a novel text classifier with visualization tools for Explainable AI	Dec 19, 2019	BIG-bench Machine LearningClassification	CodeCode Available
“Where is My Parcel?” Fast and Efficient Classifiers to Detect User Intent in Natural Language	Dec 16, 2019	English Conversational Speech RecognitionIntent Detection	CodeCode Available
Long-length Legal Document Classification	Dec 14, 2019	ClassificationDocument Classification	—Unverified
TopoAct: Visually Exploring the Shape of Activations in Deep Learning	Dec 13, 2019	Anomaly DetectionDeep Learning	CodeCode Available
FlauBERT: Unsupervised Language Model Pre-training for French	Dec 11, 2019	FLUELanguage Modeling	CodeCode Available
Zero-shot Text Classification With Generative Language Models	Dec 10, 2019	ClassificationGeneral Classification	—Unverified
Towards Constructing a Corpus for Studying the Effects of Treatments and Substances Reported in PubMed Abstracts	Dec 4, 2019	Sentencetext-classification	—Unverified
Less Is Better: Unweighted Data Subsampling via Influence Function	Dec 3, 2019	General Classificationimage-classification	CodeCode Available
Multi-Scale Self-Attention for Text Classification	Dec 2, 2019	ClassificationGeneral Classification	—Unverified
EduBERT: Pretrained Deep Language Models for Learning Analytics	Dec 2, 2019	text-classificationText Classification	—Unverified
Robust Text Classification using Sub-Word Information in Input Word Representations.	Dec 1, 2019	Language ModellingMachine Translation	—Unverified
Temporal FiLM: Capturing Long-Range Sequence Dependencies with Feature-Wise Modulations.	Dec 1, 2019	Audio Super-ResolutionSuper-Resolution	CodeCode Available
Privacy-Preserving Classification of Personal Text Messages with Secure Multi-Party Computation	Dec 1, 2019	ClassificationGeneral Classification	—Unverified
Not All Attention Is Needed: Gated Attention Network for Sequence Data	Dec 1, 2019	AllSentence	CodeCode Available
Tag Recommendation by Word-Level Tag Sequence Modeling	Nov 30, 2019	DecoderGeneral Classification	—Unverified
A Multi-cascaded Deep Model for Bilingual SMS Classification	Nov 29, 2019	ClassificationGeneral Classification	CodeCode Available
Dual-Attention Graph Convolutional Network	Nov 28, 2019	Diversitytext-classification	—Unverified
Deep Learning with Gaussian Differential Privacy	Nov 26, 2019	Deep LearningGeneral Classification	CodeCode Available
Low Rank Factorization for Compact Multi-Head Self-Attention	Nov 26, 2019	ArticlesGeneral Classification	CodeCode Available
CAWA: An Attention-Network for Credit Attribution	Nov 26, 2019	Information RetrievalMultilabel Text Classification	CodeCode Available
Word-Class Embeddings for Multiclass Text Classification	Nov 26, 2019	ClassificationGeneral Classification	CodeCode Available
Semi-Supervised Learning for Text Classification by Layer Partitioning	Nov 26, 2019	ClassificationGeneral Classification	—Unverified
High Quality ELMo Embeddings for Seven Less-Resourced Languages	Nov 22, 2019	NERtext-classification	—Unverified
Classifying Vietnamese Disease Outbreak Reports with Important Sentences and Rich Features	Nov 22, 2019	General Classificationtext-classification	—Unverified
Automatic Text-based Personality Recognition on Monologues and Multiparty Dialogues Using Attentive Networks and Contextual Embeddings	Nov 21, 2019	General Classificationtext-classification	CodeCode Available
An Empirical Study of Sections in Classifying Disease Outbreak Reports	Nov 21, 2019	ArticlesGeneral Classification	—Unverified
Paraphrasing with Large Language Models	Nov 21, 2019	Language ModelingLanguage Modelling	—Unverified
Log Message Anomaly Detection and Classification Using Auto-B/LSTM and Auto-GRU	Nov 20, 2019	Anomaly DetectionClassification	—Unverified
Thick-Net: Parallel Network Structure for Sequential Modeling	Nov 19, 2019	Language ModelingLanguage Modelling	—Unverified
A Subword Level Language Model for Bangla Language	Nov 15, 2019	ArticlesLanguage Modeling	—Unverified
Structured Sparsification of Gated Recurrent Neural Networks	Nov 13, 2019	Language ModelingLanguage Modelling	—Unverified
BP-Transformer: Modelling Long-Range Context via Binary Partitioning	Nov 11, 2019	Language ModelingLanguage Modelling	CodeCode Available
Text classification with pixel embedding	Nov 11, 2019	ArticlesClassification	—Unverified
t-SS3: a text classifier with dynamic n-grams for early risk detection over text streams	Nov 11, 2019	Anorexia DetectionClassification	CodeCode Available
Meta Label Correction for Noisy Label Learning	Nov 10, 2019	Image ClassificationLearning with noisy labels	CodeCode Available
Learning to Few-Shot Learn Across Diverse Natural Language Classification Tasks	Nov 10, 2019	DiversityEntity Typing	CodeCode Available
Improving BERT Fine-tuning with Embedding Normalization	Nov 10, 2019	ClassificationGeneral Classification	—Unverified
Improving Machine Reading Comprehension via Adversarial Training	Nov 9, 2019	General Classificationimage-classification	—Unverified
Ruminating Word Representations with Random Noised Masker	Nov 8, 2019	text-classificationText Classification	—Unverified

Show:10 25 50

← PrevPage 52 of 73Next →

All datasets MTEB AG News DBpedia R8 TREC-6 20NEWS UK Key Stage Readability Ohsumed Yahoo! Answers MR Climabench NewsDiscourse

Benchmark Results

#	Model	Metric	Claimed	Verified	Status
1	ST5-XXL	Accuracy	73.42	—	Unverified
2	ST5-XL	Accuracy	72.84	—	Unverified
3	ST5-Large	Accuracy	72.31	—	Unverified
4	Ada Similarity	Accuracy	70.44	—	Unverified
5	SGPT-5.8B-nli	Accuracy	70.14	—	Unverified
6	ST5-Base	Accuracy	69.81	—	Unverified
7	SGPT-5.8B-msmarco	Accuracy	68.13	—	Unverified
8	MPNet-multilingual	Accuracy	67.91	—	Unverified
9	GTR-XXL	Accuracy	67.41	—	Unverified
10	SimCSE-BERT-sup	Accuracy	67.32	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	Mistral-Small-24B + CAPO	Error	15.7	—	Unverified
2	ToWE-SG	Error	14	—	Unverified
3	Qwen2.5-32B + CAPO	Error	12.93	—	Unverified
4	Llama-3.3-70B + CAPO	Error	11.2	—	Unverified
5	Seq2CNN with GWS(50)	Error	9.64	—	Unverified
6	Char-level CNN	Error	9.51	—	Unverified
7	SVDCNN	Error	9.45	—	Unverified
8	VDCN	Error	8.67	—	Unverified
9	Balanced+bi-leaf-RNN	Error	7.9	—	Unverified
10	CCCapsNet	Error	7.61	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	Seq2CNN(50)	Error	2.77	—	Unverified
2	Char-level CNN	Error	1.55	—	Unverified
3	SWEM-concat	Error	1.43	—	Unverified
4	FastText	Error	1.4	—	Unverified
5	VDCN	Error	1.29	—	Unverified
6	CCCapsNet	Error	1.28	—	Unverified
7	Balanced+bi-leaf-RNN	Error	1.2	—	Unverified
8	BERT large UDA	Error	1.09	—	Unverified
9	M-ACNN	Error	1.07	—	Unverified
10	EXAM	Error	1	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	DeBERTa	Accuracy	98.45	—	Unverified
2	C-BERT (ESGNN + BERT)	Accuracy	98.28	—	Unverified
3	ESGNN	Accuracy	98.23	—	Unverified
4	RoBERTaGCN	Accuracy	98.2	—	Unverified
5	BERT	Accuracy	98.17	—	Unverified
6	SGNN	Accuracy	98.09	—	Unverified
7	ERNIE 2.0	Accuracy	98.04	—	Unverified
8	DistilBERT	Accuracy	97.98	—	Unverified
9	Our Model*	Accuracy	97.8	—	Unverified
10	ALBERTv2	Accuracy	97.62	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	TM-Glove	Error	9.96	—	Unverified
2	byte mLSTM7	Error	9.6	—	Unverified
3	SWEM-aver	Error	7.8	—	Unverified
4	DELTA (CNN)	Error	7.8	—	Unverified
5	Capsule-B	Error	7.2	—	Unverified
6	STM+TSED+PT+2L	Error	7.04	—	Unverified
7	GRU-RNN-GLOVE	Error	7	—	Unverified
8	MPAD-path	Error	6.2	—	Unverified
9	VLAWE	Error	5.8	—	Unverified
10	C-LSTM	Error	5.4	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	LinearSVM+TFIDF	Accuracy	93	—	Unverified
2	RoBERTaGCN	Accuracy	89.5	—	Unverified
3	SSGC	Accuracy	88.6	—	Unverified
4	SGC	Accuracy	88.5	—	Unverified
5	SGCN	Accuracy	88.5	—	Unverified
6	RMDL (15 RDLs)	Accuracy	87.91	—	Unverified
7	Sparse Tensor Classifier	Accuracy	87.3	—	Unverified
8	GraphStar	Accuracy	86.9	—	Unverified
9	NABoE-full	Accuracy	86.8	—	Unverified
10	Text GCN	Accuracy	86.34	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	ELECTRA + ANN	F1	99.6	—	Unverified
2	ERNIE + ANN	F1	99.4	—	Unverified
3	XLNet + ANN	F1	99.2	—	Unverified
4	RoBERTa + ANN	F1	98.7	—	Unverified
5	Longformer + ANN	F1	93.9	—	Unverified
6	BERT + ANN	F1	90.5	—	Unverified
7	ALBERT + ANN	F1	79.7	—	Unverified
8	BERT	F1	75	—	Unverified
9	DistilBERT	F1	74.4	—	Unverified
10	XLNet	F1	74	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	RoBERTaGCN	Accuracy	72.8	—	Unverified
2	Our Model*	Accuracy	69.4	—	Unverified
3	SSGC	Accuracy	68.5	—	Unverified
4	SGC	Accuracy	68.5	—	Unverified
5	SGCN	Accuracy	68.5	—	Unverified
6	Text GCN	Accuracy	68.36	—	Unverified
7	GraphStar	Accuracy	64.2	—	Unverified
8	ApproxRepSet	Accuracy	64.06	—	Unverified
9	REL-RWMD k-NN	Accuracy	58.74	—	Unverified
10	CNN+Lowercased	Accuracy	36.2	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	BERT-ITPT-FiT	Accuracy	77.62	—	Unverified
2	DRNN	Accuracy	76.26	—	Unverified
3	DELTA (HAN)	Accuracy	75.1	—	Unverified
4	EXAM	Accuracy	74.8	—	Unverified
5	DNC+CUW	Accuracy	74.3	—	Unverified
6	ULMFiT (Small data)	Accuracy	74.3	—	Unverified
7	CCCapsNet	Accuracy	73.85	—	Unverified
8	SWEM-concat	Accuracy	73.53	—	Unverified
9	FastText	Accuracy	72.3	—	Unverified
10	Seq2CNN(50)	Accuracy	55.39	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	DeBERTa	Accuracy	90.21	—	Unverified
2	RoBERTaGCN	Accuracy	89.7	—	Unverified
3	ERNIE 2.0 (optimized)	Accuracy	89.53	—	Unverified
4	RoBERTa	Accuracy	89.42	—	Unverified
5	ERNIE 2.0	Accuracy	88.97	—	Unverified
6	BERT	Accuracy	86.94	—	Unverified
7	ALBERTv2	Accuracy	86.02	—	Unverified
8	DistilBERT	Accuracy	85.31	—	Unverified
9	SSGC	Accuracy	76.7	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	CliReBERT (P0L3/clirebert_clirevocab_uncased)	Evaluation Macro F1	0.65	—	Unverified
2	ClimateBERT (climatebert/distilroberta-base-climate-f)	Evaluation Macro F1	0.64	—	Unverified
3	BERT (google-bert/bert-base-uncased)	Evaluation Macro F1	0.61	—	Unverified
4	CliSciBERT (P0L3/cliscibert_scivocab_uncased)	Evaluation Macro F1	0.61	—	Unverified
5	SciBERT (allenai/scibert_scivocab_cased)	Evaluation Macro F1	0.59	—	Unverified
6	DistilRoBERTa (distilbert/distilroberta-base)	Evaluation Macro F1	0.58	—	Unverified
7	SciClimateBERT (P0L3/sciclimatebert)	Evaluation Macro F1	0.58	—	Unverified
8	RoBERTa (FacebookAI/roberta-base)	Evaluation Macro F1	0.57	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	Human (Post-Rec.) (Spangher et al., 2021)	macro F1	73.69	—	Unverified
2	MT-Mac (Spangher et al., 2021)	macro F1	63.46	—	Unverified
3	MT-Mic (Spangher et al., 2021)	macro F1	61.89	—	Unverified
4	RL-IP/TT (Choubey et al., 2021)	macro F1	57	—	Unverified
5	Document LSTM + Document encoding (Choubey et al., 2020)	macro F1	54.4	—	Unverified
6	CRF Fine-grained (Choubey et al., 2020)	macro F1	52.9	—	Unverified
7	Human (Blind) (Spangher et al., 2021)	macro F1	46.18	—	Unverified
8	Feature-based (SVM) (Choubey et al., 2020)	macro F1	38.3	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	1-6 BertGCN	Accuracy	96.6	—	Unverified
2	GraphStar	Accuracy	95	—	Unverified
3	Our Model*	Accuracy	94.6	—	Unverified
4	SSGC	Accuracy	94.5	—	Unverified
5	SGC	Accuracy	94	—	Unverified
6	SGCN	Accuracy	94	—	Unverified
7	Text GCN	Accuracy	93.56	—	Unverified
8	TM-Glove	Accuracy	89.14	—	Unverified