Hate Speech Detection

Hate speech detection is the task of detecting if communication such as text, audio, and so on contains hatred and or encourages violence towards a person or a group of people. This is usually based on prejudice against 'protected characteristics' such as their ethnicity, gender, sexual orientation, religion, age et al. Some example benchmarks are ETHOS and HateXplain. Models can be evaluated with metrics like the F-score or F-measure.

Papers

Recently Added Most Hyped Most Active Needs Verification Most Verified

Showing 201–250 of 507 papers

Title	Date	Tasks	Status	Hype
A Federated Approach for Hate Speech Detection	Feb 18, 2023	Hate Speech Detection	CodeCode Available	1
Hate Speech and Offensive Language Detection using an Emotion-aware Shared Encoder	Feb 17, 2023	Hate Speech Detection	—Unverified	0
Qualitative Analysis of a Graph Transformer Approach to Addressing Hate Speech: Adapting to Dynamically Changing Content	Jan 25, 2023	Hate Speech Detection	—Unverified	0
Leveraging World Knowledge in Implicit Hate Speech Detection	Dec 28, 2022	Entity LinkingHate Speech Detection	—Unverified	0
AnnoBERT: Effectively Representing Multiple Annotators' Label Choices to Improve Hate Speech Detection	Dec 20, 2022	Hate Speech Detection	—Unverified	0
Multimodal and Explainable Internet Meme Classification	Dec 11, 2022	ClassificationExplainable Models	—Unverified	0
A Graph-Based Context-Aware Model to Understand Online Conversations	Nov 16, 2022	Hate Speech DetectionMisinformation	—Unverified	0
Hope Speech Detection on Social Media Platforms	Nov 14, 2022	Hate Speech DetectionHope Speech Detection	CodeCode Available	0
How Much Hate with #china? A Preliminary Analysis on China-related Hateful Tweets Two Years After the Covid Pandemic Began	Nov 11, 2022	Hate Speech Detection	CodeCode Available	0
Why Is It Hate Speech? Masked Rationale Prediction for Explainable Hate Speech Detection	Nov 1, 2022	Hate Speech DetectionSentence	CodeCode Available	1
Multilingual Auxiliary Tasks Training: Bridging the Gap between Languages for Zero-Shot Transfer of Hate Speech Detection Models	Oct 24, 2022	Cross-Lingual TransferHate Speech Detection	CodeCode Available	0
A Benchmark Study of Contrastive Learning for Arabic Social Meaning	Oct 22, 2022	Contrastive LearningDialect Identification	CodeCode Available	0
Data-Efficient Strategies for Expanding Hate Speech Detection into Under-Resourced Languages	Oct 20, 2022	Hate Speech Detection	CodeCode Available	0
Transferring Knowledge via Neighborhood-Aware Optimal Transport for Low-Resource Hate Speech Detection	Oct 17, 2022	Hate Speech Detection	—Unverified	0
T5 for Hate Speech, Augmented Data and Ensemble	Oct 11, 2022	Data AugmentationExplainable artificial intelligence	CodeCode Available	0
Spread Love Not Hate: Undermining the Importance of Hateful Pre-training for Hate Speech Detection	Oct 9, 2022	Hate Speech Detection	—Unverified	0
Hate Speech and Offensive Language Detection in Bengali	Oct 7, 2022	Hate Speech Detection	CodeCode Available	0
Hypothesis Engineering for Zero-Shot Hate Speech Detection	Oct 3, 2022	Hate Speech DetectionNatural Language Inference	CodeCode Available	0
Assessing the impact of contextual information in hate speech detection	Oct 2, 2022	Hate Speech Detection	—Unverified	0
Analyzing the Real Vulnerability of Hate Speech Detection Systems against Targeted Intentional Noise	Oct 1, 2022	Hate Speech Detection	—Unverified	0
The Role of Context in Detecting the Target of Hate Speech	Oct 1, 2022	Hate Speech DetectionLanguage Modeling	—Unverified	0
Generalizable Implicit Hate Speech Detection Using Contrastive Learning	Oct 1, 2022	Contrastive LearningHate Speech Detection	CodeCode Available	1
SOS: Systematic Offensive Stereotyping Bias in Word Embeddings	Oct 1, 2022	BlockingHate Speech Detection	—Unverified	0
俄语网络仇恨言论语料库研究与构建(An Russian Internet Corpus for Hate Speech Detection)	Oct 1, 2022	Hate Speech Detection	—Unverified	0
An Attention Matrix for Every Decision: Faithfulness-based Arbitration Among Multiple Attention-Based Interpretations of Transformers in Text Classification	Sep 22, 2022	ClassificationFeature Importance	—Unverified	0
Domain Classification-based Source-specific Term Penalization for Domain Adaptation in Hate-speech Detection	Sep 18, 2022	Domain Adaptationdomain classification	—Unverified	0
Public Wisdom Matters! Discourse-Aware Hyperbolic Fourier Co-Attention for Social-Text Classification	Sep 15, 2022	Abstract Meaning RepresentationFake News Detection	CodeCode Available	1
BERT-based Ensemble Approaches for Hate Speech Detection	Sep 14, 2022	Hate Speech DetectionMulti-Label Classification	—Unverified	0
A Review of Challenges in Machine Learning based Automated Hate Speech Detection	Sep 12, 2022	Hate Speech Detection	—Unverified	0
Power of Explanations: Towards automatic debiasing in hate speech detection	Sep 7, 2022	FairnessHate Speech Detection	CodeCode Available	0
Combating high variance in Data-Scarce Implicit Hate Speech Classification	Aug 29, 2022	Hate Speech DetectionVocal Bursts Intensity Prediction	—Unverified	0
K-MHaS: A Multi-label Hate Speech Detection Dataset in Korean Online News Comment	Aug 23, 2022	Hate Speech DetectionMulti-Label Classification	CodeCode Available	1
Generalizing Hate Speech Detection Using Multi-Task Learning: A Case Study of Political Public Figures	Aug 22, 2022	Hate Speech DetectionMulti-Task Learning	—Unverified	0
Exploring Hate Speech Detection with HateXplain and BERT	Aug 9, 2022	Hate Speech Detection	CodeCode Available	0
ferret: a Framework for Benchmarking Explainers on Transformers	Aug 2, 2022	BenchmarkingExplainable Artificial Intelligence (XAI)	CodeCode Available	0
Improving Generalization of Hate Speech Detection Systems to Novel Target Groups via Domain Adaptation	Jul 1, 2022	DiversityDomain Adaptation	—Unverified	0
Accounting for Offensive Speech as a Practice of Resistance	Jul 1, 2022	Hate Speech DetectionPhilosophy	—Unverified	0
HATE-ITA: New Baselines for Hate Speech Detection in Italian	Jul 1, 2022	BenchmarkingHate Speech Detection	CodeCode Available	0
Free speech or Free Hate Speech? Analyzing the Proliferation of Hate Speech in Parler	Jul 1, 2022	ClassificationHate Speech Detection	—Unverified	0
Resources for Multilingual Hate Speech Detection	Jul 1, 2022	DiversityHate Speech Detection	—Unverified	0
Targeted Identity Group Prediction in Hate Speech Corpora	Jul 1, 2022	Hate Speech DetectionPrediction	CodeCode Available	0
A Comprehensive Dataset for German Offensive Language and Conversation Analysis	Jul 1, 2022	Hate Speech Detection	CodeCode Available	1
Features or Spurious Artifacts? Data-centric Baselines for Fair and Robust Hate Speech Detection	Jul 1, 2022	FairnessHate Speech Detection	CodeCode Available	0
An Interactive Exploratory Tool for the Task of Hate Speech Detection	Jul 1, 2022	Hate Speech Detection	—Unverified	0
Explainable and High-Performance Hate and Offensive Speech Detection	Jun 26, 2022	Hate Speech DetectionVocal Bursts Intensity Prediction	—Unverified	0
Multilingual HateCheck: Functional Tests for Multilingual Hate Speech Detection Models	Jun 20, 2022	DiagnosticHate Speech Detection	CodeCode Available	1
Improved two-stage hate speech classification for twitter based on Deep Neural Networks	Jun 8, 2022	16kAbusive Language	—Unverified	0
What If Ground Truth Is Subjective? Personalized Deep Neural Hate Speech Detection	Jun 1, 2022	Hate Speech Detection	CodeCode Available	0
Ara-Women-Hate: An Annotated Corpus Dedicated to Hate Speech Detection against Women in the Arabic Community	Jun 1, 2022	Hate Speech Detection	—Unverified	0
Beyond Explanation: A Case for Exploratory Text Visualizations of Non-Aggregated, Annotated Datasets	Jun 1, 2022	Bias DetectionHate Speech Detection	—Unverified	0

Show:10 25 50

← PrevPage 5 of 11Next →

All datasets Ethos Binary HateXplain Ethos MultiLabel Waseem et al., 2018 AbusEval Automatic Misogynistic Identification HateMM HatEval OffensEval 2019 ToLD-Br bajer_danish_misogyny DKhate

Benchmark Results

#	Model	Metric	Claimed	Verified	Status
1	BiLSTM + static BE	F1-score	0.8	—	Unverified
2	BERT	F1-score	0.79	—	Unverified
3	BiLSTM+Attention+FT	F1-score	0.77	—	Unverified
4	OPT-175B (few-shot)	F1-score	0.76	—	Unverified
5	CNN+Attention+FT+GV	F1-score	0.74	—	Unverified
6	OPT-175B (one-shot)	F1-score	0.71	—	Unverified
7	OPT-175B (zero-shot)	F1-score	0.67	—	Unverified
8	SVM	F1-score	0.66	—	Unverified
9	Random Forests	F1-score	0.64	—	Unverified
10	Davinci (zero-shot)	F1-score	0.63	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	BERT-MRP	AUROC	0.86	—	Unverified
2	BERT-RP	AUROC	0.85	—	Unverified
3	BERT-HateXplain [LIME]	AUROC	0.85	—	Unverified
4	BERT-HateXplain [Attn]	AUROC	0.85	—	Unverified
5	BERT [Attn]	AUROC	0.84	—	Unverified
6	BiRNN-HateXplain [Attn]	AUROC	0.81	—	Unverified
7	BiRNN-Attn [Attn]	AUROC	0.8	—	Unverified
8	CNN-GRU [LIME]	AUROC	0.79	—	Unverified
9	BiRNN [LIME]	AUROC	0.77	—	Unverified
10	XG-HSI-BERT	Accuracy	0.75	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	MLARAM	Hamming Loss	0.29	—	Unverified
2	MLkNN	Hamming Loss	0.16	—	Unverified
3	Binary Relevance	Hamming Loss	0.14	—	Unverified
4	Neural Classifier Chains	Hamming Loss	0.13	—	Unverified
5	Neural Binary Relevance	Hamming Loss	0.11	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	Mozafari et al., 2019	AAA	50.94	—	Unverified
2	SVM	AAA	46.51	—	Unverified
3	Kennedy et al., 2020	AAA	45.5	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	HateBERT	Macro F1	0.74	—	Unverified
2	BERT	Macro F1	0.72	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	mBert	Accuracy	0.83	—	Unverified
2	Logistic Regression	Accuracy	0.7	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	HXP + CLAP + CLIP	TEST F1 (macro)	0.85	—	Unverified
2	BERT + ViT + MFCC	TEST F1 (macro)	0.79	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	HateBERT	Macro F1	0.49	—	Unverified
2	BERT	Macro F1	0.48	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	HateBERT	Macro F1	0.81	—	Unverified
2	BERT	Macro F1	0.8	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	Multilingual BERT	F1-score	0.75	—	Unverified
2	AutoML	F1-score	0.74	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	AOM mBERT	F1	0.85	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	Baseline	F1	0.7	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	RoBERTa-large-ST	Macro F1	80.7	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	Baseline BERT (task A)	F1	0.77	—	Unverified