SOTAVerified|Agents Browse Leaderboard About Blog

Bias Detection

Bias detection is the task of detecting and measuring racism, sexism and otherwise discriminatory behavior in a model (Source: https://stereoset.mit.edu/)

Papers

Recently Added Most Hyped Most Active Needs Verification Most Verified

Showing 101–110 of 199 papers

Title	Date	Tasks	Status	Hype
Personalized Detection of Cognitive Biases in Actions of Users from Their Logs: Anchoring and Recency Biases	Jun 30, 2022	Bias DetectionEthics	—Unverified	0
Pseudo-labelling Enhanced Media Bias Detection	Jul 16, 2021	Bias DetectionData Augmentation	—Unverified	0
Quantifying Risk Propensities of Large Language Models: Ethical Focus and Bias Detection through Role-Play	Oct 26, 2024	Bias DetectionDecision Making	—Unverified	0
The Impact of Unstated Norms in Bias Analysis of Language Models	Apr 4, 2024	Bias Detectioncounterfactual	—Unverified	0
Robots Enact Malignant Stereotypes	Jul 23, 2022	Bias DetectionGender Bias Detection	—Unverified	0
Sample Complexity of Bias Detection with Subsampled Point-to-Subspace Distances	Feb 4, 2025	Bias Detection	—Unverified	0
Seeing Like an AI: How LLMs Apply (and Misapply) Wikipedia Neutrality Norms	Jul 4, 2024	Bias DetectionTask 2	—Unverified	0
Sexism in the Judiciary	Jun 29, 2021	Bias Detection	—Unverified	0
Sexism in the Judiciary: The Importance of Bias Definition in NLP and In Our Courts	Aug 1, 2021	Bias Detection	—Unverified	0
Sparse Interventions in Language Models with Differentiable Masking	Dec 13, 2021	Bias DetectionGender Bias Detection	—Unverified	0

Show:10 25 50

← PrevPage 11 of 20Next →

All datasets StereoSet rt-inod-bias ICAT LLM bias PlantVillage_8px Wiki Neutrality Corpus

Benchmark Results

#	Model	Metric	Claimed	Verified	Status
1	GPT-2 (small)	ICAT Score	72.97	—	Unverified
2	XLNet (large)	ICAT Score	72.03	—	Unverified
3	GPT-2 (medium)	ICAT Score	71.73	—	Unverified
4	BERT (base)	ICAT Score	71.21	—	Unverified
5	GPT-2 (large)	ICAT Score	70.54	—	Unverified
6	BERT (large)	ICAT Score	69.89	—	Unverified
7	RoBERTa (base)	ICAT Score	67.5	—	Unverified
8	GAL 120B	ICAT Score	65.6	—	Unverified
9	XLNet (base)	ICAT Score	62.1	—	Unverified
10	GPT-3 (text-davinci-002)	ICAT Score	60.8	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	GPT-4	Best-of	0.5	—	Unverified
2	Baseline	Best-of	0.41	—	Unverified
3	Gemma	Best-of	0.41	—	Unverified
4	Mistral	Best-of	0.36	—	Unverified
5	Llama2	Best-of	0.34	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	BAD	ICAT Score	23.44	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	RandomForest_default_hyperparameters	Accuracy (%)	49	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	RoBERTa+ALBERT	F1	70.4	—	Unverified