Bias Detection

Bias detection is the task of detecting and measuring racism, sexism and otherwise discriminatory behavior in a model (Source: https://stereoset.mit.edu/)

Papers

Recently Added Most Hyped Most Active Needs Verification Most Verified

Showing 51–75 of 199 papers

Title	Date	Tasks	Status	Score
How sensitive are translation systems to extra contexts? Mitigating gender bias in Neural Machine Translation models through relevant contexts	May 22, 2022	Bias DetectionMachine Translation	CodeCode Available	5
Measuring Gender Bias in Word Embeddings across Domains and Discovering New Gender Bias Word Categories	Aug 1, 2019	Bias DetectionClustering	CodeCode Available	5
GradBias: Unveiling Word Influence on Bias in Text-to-Image Generative Models	Aug 29, 2024	Bias DetectionFairness	CodeCode Available	5
A methodology to characterize bias and harmful stereotypes in natural language processing in Latin America	Jul 14, 2022	Bias DetectionDecision Making	CodeCode Available	5
GUS-Net: Social Bias Classification in Text with Generalizations, Unfairness, and Stereotypes	Oct 10, 2024	Bias Detectiontoken-classification	CodeCode Available	5
Gender Bias Detection in Court Decisions: A Brazilian Case Study	Jun 1, 2024	Bias DetectionGender Bias Detection	CodeCode Available	5
DispaRisk: Auditing Fairness Through Usable Information	May 20, 2024	BenchmarkingBias Detection	CodeCode Available	5
Quantifying Gender Biases Towards Politicians on Reddit	Dec 22, 2021	Bias DetectionGender Bias Detection	CodeCode Available	5
A Study of Nationality Bias in Names and Perplexity using Off-the-Shelf Affect-related Tweet Classifiers	Jul 1, 2024	Bias Detectioncounterfactual	CodeCode Available	5
Second Order WinoBias (SoWinoBias) Test Set for Latent Gender Bias Detection in Coreference Resolution	Sep 28, 2021	Bias Detectioncoreference-resolution	CodeCode Available	5
Disentangling Structure and Style: Political Bias Detection in News by Inducing Document Hierarchy	Apr 5, 2023	ArticlesBias Detection	CodeCode Available	5
HeteroCorpus: A Corpus for Heteronormative Language Detection	Jul 1, 2022	Bias DetectionGender Bias Detection	CodeCode Available	5
fairmodels: A Flexible Tool For Bias Detection, Visualization, And Mitigation	Apr 1, 2021	Bias DetectionFairness	CodeCode Available	5
Detecting Media Bias in News Articles using Gaussian Bias Distributions	Oct 20, 2020	ArticlesBias Detection	CodeCode Available	5
Fair is Better than Sensational:Man is to Doctor as Woman is to Doctor	May 23, 2019	Bias DetectionDiagnostic	CodeCode Available	5
Fine-grained Classification of Political Bias in German News: A Data Set and Initial Experiments	Aug 1, 2021	ArticlesBias Detection	CodeCode Available	5
Can Global XAI Methods Reveal Injected Bias in LLMs? SHAP vs Rule Extraction vs RuleSHAP	May 16, 2025	Bias DetectionMisinformation	CodeCode Available	5
Don’t Discard All the Biased Instances: Investigating a Core Assumption in Dataset Bias Mitigation Techniques	Nov 1, 2021	AllBias Detection	CodeCode Available	5
Detection of Puffery on the English Wikipedia	Nov 1, 2021	Bias DetectionInformation Retrieval	CodeCode Available	5
Automated Dependence Plots	Dec 2, 2019	Bias DetectionModel Selection	CodeCode Available	5
Forward Composition Propagation for Explainable Neural Reasoning	Dec 23, 2021	Bias DetectionFairness	CodeCode Available	5
How Neural Networks Organize Concepts: Introducing Concept Trajectory Analysis for Deep Learning Interpretability	Jun 1, 2025	Bias Detection	CodeCode Available	5
Mind Your Bias: A Critical Review of Bias Detection Methods for Contextual Language Models	Nov 15, 2022	Bias DetectionWord Embeddings	CodeCode Available	5
Don't Discard All the Biased Instances: Investigating a Core Assumption in Dataset Bias Mitigation Techniques	Sep 1, 2021	AllBias Detection	CodeCode Available	5
The Promises and Pitfalls of LLM Annotations in Dataset Labeling: a Case Study on Media Bias Detection	Nov 17, 2024	Bias DetectionHate Speech Detection	CodeCode Available	5

Show:10 25 50

← PrevPage 3 of 8Next →

All datasets StereoSet rt-inod-bias ICAT LLM bias PlantVillage_8px Wiki Neutrality Corpus

Benchmark Results

#	Model	Metric	Claimed	Verified	Status
1	GPT-2 (small)	ICAT Score	72.97	—	Unverified
2	XLNet (large)	ICAT Score	72.03	—	Unverified
3	GPT-2 (medium)	ICAT Score	71.73	—	Unverified
4	BERT (base)	ICAT Score	71.21	—	Unverified
5	GPT-2 (large)	ICAT Score	70.54	—	Unverified
6	BERT (large)	ICAT Score	69.89	—	Unverified
7	RoBERTa (base)	ICAT Score	67.5	—	Unverified
8	GAL 120B	ICAT Score	65.6	—	Unverified
9	XLNet (base)	ICAT Score	62.1	—	Unverified
10	GPT-3 (text-davinci-002)	ICAT Score	60.8	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	GPT-4	Best-of	0.5	—	Unverified
2	Baseline	Best-of	0.41	—	Unverified
3	Gemma	Best-of	0.41	—	Unverified
4	Mistral	Best-of	0.36	—	Unverified
5	Llama2	Best-of	0.34	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	BAD	ICAT Score	23.44	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	RandomForest_default_hyperparameters	Accuracy (%)	49	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	RoBERTa+ALBERT	F1	70.4	—	Unverified