Bias Detection

Bias detection is the task of detecting and measuring racism, sexism and otherwise discriminatory behavior in a model (Source: https://stereoset.mit.edu/)

Papers

Recently Added Most Hyped Most Active Needs Verification Most Verified

Showing 51–75 of 199 papers

Title	Date	Tasks	Status
BEADs: Bias Evaluation Across Domains	Jun 6, 2024	BenchmarkingBias Detection	—Unverified
Auditing Algorithmic Fairness in Machine Learning for Health with Severity-Based LOGAN	Nov 16, 2022	Bias DetectionClustering	—Unverified
Evaluating Fairness Metrics in the Presence of Dataset Bias	Sep 24, 2018	Bias DetectionCausal Inference	—Unverified
Current State-of-the-Art of Bias Detection and Mitigation in Machine Translation for African and European Languages: a Review	Oct 28, 2024	Bias DetectionDiversity	—Unverified
Auditing a Dutch Public Sector Risk Profiling Algorithm Using an Unsupervised Bias Detection Tool	Feb 3, 2025	Bias DetectionClustering	—Unverified
BiaSWE: An Expert Annotated Dataset for Misogyny Detection in Swedish	Feb 11, 2025	Bias DetectionSpecificity	—Unverified
An Interdisciplinary Approach for the Automated Detection and Visualization of Media Bias in News Articles	Dec 26, 2021	ArticlesBias Detection	—Unverified
Decoding Biases: Automated Methods and LLM Judges for Gender Bias Detection in Language Models	Aug 7, 2024	Bias DetectionGender Bias Detection	—Unverified
Decoding News Bias: Multi Bias Detection in News Articles	Jan 5, 2025	ArticlesBias Detection	—Unverified
Decoding News Narratives: A Critical Analysis of Large Language Models in Framing Detection	Feb 18, 2024	Bias Detection	—Unverified
Deep Learning for Bias Detection: From Inception to Deployment	Oct 12, 2021	Bias DetectionDeep Learning	—Unverified
BiasAlert: A Plug-and-play Tool for Social Bias Detection in LLMs	Jul 14, 2024	Bias DetectionQuestion Answering	—Unverified
Experiments in News Bias Detection with Pre-Trained Neural Transformers	Jun 14, 2024	Bias DetectionSentence	—Unverified
BiasScanner: Automatic Detection and Classification of News Bias to Strengthen Democracy	Jul 15, 2024	ArticlesBias Detection	—Unverified
BiasLab: Toward Explainable Political Bias Detection with Dual-Axis Annotations and Rationale Indicators	May 21, 2025	ArticlesBias Detection	—Unverified
Anatomizing Bias in Facial Analysis	Dec 13, 2021	Bias Detection	—Unverified
Mitigating the Risk of Health Inequity Exacerbated by Large Language Models	Oct 7, 2024	Bias DetectionMedical Question Answering	—Unverified
Bias in Large Language Models: Origin, Evaluation, and Mitigation	Nov 16, 2024	Bias Detection	—Unverified
A Deep Dive into Effects of Structural Bias on CMA-ES Performance along Affine Trajectories	Apr 26, 2024	Bias Detection	—Unverified
Epistemological Bias As a Means for the Automated Detection of Injustices in Text	Jul 8, 2024	Bias Detection	—Unverified
A Meta Survey of Quality Evaluation Criteria in Explanation Methods	Mar 25, 2022	Bias DetectionExplainable artificial intelligence	—Unverified
BiasGuard: A Reasoning-enhanced Bias Detection Tool For Large Language Models	Apr 30, 2025	Bias DetectionDecision Making	—Unverified
DocNet: Semantic Structure in Inductive Bias Detection Models	Jun 16, 2024	ArticlesBias Detection	—Unverified
Bias in word embeddings	Jan 27, 2020	Bias DetectionWord Embeddings	—Unverified
Efficient Fairness Testing in Large Language Models: Prioritizing Metamorphic Relations for Bias Detection	May 9, 2025	Bias DetectionDiversity	—Unverified

Show:10 25 50

← PrevPage 3 of 8Next →

All datasets StereoSet rt-inod-bias ICAT LLM bias PlantVillage_8px Wiki Neutrality Corpus

Benchmark Results

#	Model	Metric	Claimed	Verified	Status
1	GPT-2 (small)	ICAT Score	72.97	—	Unverified
2	XLNet (large)	ICAT Score	72.03	—	Unverified
3	GPT-2 (medium)	ICAT Score	71.73	—	Unverified
4	BERT (base)	ICAT Score	71.21	—	Unverified
5	GPT-2 (large)	ICAT Score	70.54	—	Unverified
6	BERT (large)	ICAT Score	69.89	—	Unverified
7	RoBERTa (base)	ICAT Score	67.5	—	Unverified
8	GAL 120B	ICAT Score	65.6	—	Unverified
9	XLNet (base)	ICAT Score	62.1	—	Unverified
10	GPT-3 (text-davinci-002)	ICAT Score	60.8	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	GPT-4	Best-of	0.5	—	Unverified
2	Baseline	Best-of	0.41	—	Unverified
3	Gemma	Best-of	0.41	—	Unverified
4	Mistral	Best-of	0.36	—	Unverified
5	Llama2	Best-of	0.34	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	BAD	ICAT Score	23.44	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	RandomForest_default_hyperparameters	Accuracy (%)	49	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	RoBERTa+ALBERT	F1	70.4	—	Unverified