Bias Detection

Bias detection is the task of detecting and measuring racism, sexism and otherwise discriminatory behavior in a model (Source: https://stereoset.mit.edu/)

Papers

Recently Added Most Hyped Most Active Needs Verification Most Verified

Showing 1–50 of 199 papers

Title	Date	Tasks	Status	Hype
Galactica: A Large Language Model for Science	Nov 16, 2022	AnachronismsBias Detection	CodeCode Available	4
Explainable AI in Spatial Analysis	May 1, 2025	Bias DetectionExplainable artificial intelligence	CodeCode Available	2
Benchmarking Bias Mitigation Algorithms in Representation Learning through Fairness Metrics	Jun 8, 2021	Age And Gender ClassificationBenchmarking	CodeCode Available	1
Neural Media Bias Detection Using Distant Supervision With BABE -- Bias Annotations By Experts	Sep 29, 2022	ArticlesBias Detection	CodeCode Available	1
BiasAsker: Measuring the Bias in Conversational AI System	May 21, 2023	Bias Detection	CodeCode Available	1
Benchmarking Llama2, Mistral, Gemma and GPT for Factuality, Toxicity, Bias and Propensity for Hallucinations	Apr 15, 2024	BenchmarkingBias Detection	CodeCode Available	1
MT-LENS: An all-in-one Toolkit for Better Machine Translation Evaluation	Dec 16, 2024	AllBenchmarking	CodeCode Available	1
Counterfactual Token Generation in Large Language Models	Sep 25, 2024	Bias Detectioncounterfactual	CodeCode Available	1
BAD: BiAs Detection for Large Language Models in the context of candidate screening	May 17, 2023	Bias DetectionFairness	CodeCode Available	1
New Job, New Gender? Measuring the Social Bias in Image Generation Models	Jan 1, 2024	Bias DetectionFairness	CodeCode Available	1
Towards explainable classifiers using the counterfactual approach -- global explanations for discovering bias in data	May 5, 2020	Bias Detectioncounterfactual	CodeCode Available	1
Detecting Emergent Intersectional Biases: Contextualized Word Embeddings Contain a Distribution of Human-like Biases	Jun 6, 2020	Bias DetectionSentence	CodeCode Available	1
Debiased Visual Question Answering from Feature and Sample Perspectives	Dec 1, 2021	Bias DetectionQuestion Answering	CodeCode Available	1
Amazon SageMaker Clarify: Machine Learning Bias Detection and Explainability in the Cloud	Sep 7, 2021	Bias DetectionBIG-bench Machine Learning	CodeCode Available	1
Neural Media Bias Detection Using Distant Supervision With BABE - Bias Annotations By Experts	Nov 1, 2021	ArticlesBias Detection	CodeCode Available	1
Explainable AI for computational pathology identifies model limitations and tissue biomarkers	Sep 4, 2024	Bias Detectioncounterfactual	CodeCode Available	1
A Systematic Study and Comprehensive Evaluation of ChatGPT on Benchmark Datasets	May 29, 2023	Bias DetectionCode Generation	CodeCode Available	1
Learning to Split for Automatic Bias Detection	Apr 28, 2022	Bias Detectionimage-classification	CodeCode Available	1
OpenBias: Open-set Bias Detection in Text-to-Image Generative Models	Apr 11, 2024	Bias DetectionFairness	CodeCode Available	1
The Hidden Language of Diffusion Models	Jun 1, 2023	Bias DetectionImage Manipulation	CodeCode Available	1
SynthesizRR: Generating Diverse Datasets with Retrieval Augmentation	May 16, 2024	Bias DetectionDiversity	CodeCode Available	1
StereoSet: Measuring stereotypical bias in pretrained language models	Apr 20, 2020	Bias DetectionMath	CodeCode Available	1
Introducing MBIB -- the first Media Bias Identification Benchmark Task and Dataset Collection	Apr 25, 2023	Bias Detection	CodeCode Available	1
Exploring Visual Engagement Signals for Representation Learning	Apr 15, 2021	Bias DetectionEmotion Recognition	CodeCode Available	1
Entropy-based Attention Regularization Frees Unintended Bias Mitigation from Lists	Mar 17, 2022	Abuse DetectionBias Detection	CodeCode Available	1
A Review of the Challenges with Massive Web-mined Corpora Used in Large Language Models Pre-Training	Jul 10, 2024	Bias Detection	—Unverified	0
BENN: Bias Estimation Using Deep Neural Network	Dec 23, 2020	Bias Detection	—Unverified	0
Adding Instructions during Pretraining: Effective Way of Controlling Toxicity in Language Models	Feb 14, 2023	Bias DetectionData Augmentation	—Unverified	0
Beyond Explanation: A Case for Exploratory Text Visualizations of Non-Aggregated, Annotated Datasets	Jun 1, 2022	Bias DetectionHate Speech Detection	—Unverified	0
BiasAlert: A Plug-and-play Tool for Social Bias Detection in LLMs	Jul 14, 2024	Bias DetectionQuestion Answering	—Unverified	0
BEADs: Bias Evaluation Across Domains	Jun 6, 2024	BenchmarkingBias Detection	—Unverified	0
Any Large Language Model Can Be a Reliable Judge: Debiasing with a Reasoning-based Bias Detector	May 21, 2025	Bias DetectionIn-Context Learning	—Unverified	0
Constructive Interpretability with CoLabel: Corroborative Integration, Complementary Features, and Collaborative Learning	May 20, 2022	Bias Detection	—Unverified	0
Back to Square One: Artifact Detection, Training and Commonsense Disentanglement in the Winograd Schema	Apr 16, 2021	Artifact DetectionBias Detection	—Unverified	0
A Novel Method for News Article Event-Based Embedding	May 20, 2024	ArticlesBias Detection	—Unverified	0
A Keyword Based Approach to Understanding the Overpenalization of Marginalized Groups by English Marginal Abuse Models on Twitter	Oct 7, 2022	Bias DetectionFairness	—Unverified	0
Reinforcement Learning from Multi-role Debates as Feedback for Bias Mitigation in LLMs	Apr 15, 2024	Bias DetectionLogical Reasoning	—Unverified	0
Annotating and Analyzing Biased Sentences in News Articles using Crowdsourcing	May 1, 2020	ArticlesBias Detection	—Unverified	0
Auditing Predictive Models for Intersectional Biases	Jun 22, 2023	Bias DetectionFairness	—Unverified	0
Accurate Uncertainty Estimation and Decomposition in Ensemble Learning	Nov 11, 2019	Bias DetectionEnsemble Learning	—Unverified	0
Can we Debias Social Stereotypes in AI-Generated Images? Examining Text-to-Image Outputs and User Perceptions	May 27, 2025	Bias Detection	—Unverified	0
Auditing Algorithmic Fairness in Machine Learning for Health with Severity-Based LOGAN	Nov 16, 2022	Bias DetectionClustering	—Unverified	0
Can We Trust AI Agents? A Case Study of an LLM-Based Multi-Agent System for Ethical AI	Oct 25, 2024	Bias DetectionEthics	—Unverified	0
Cascading Adversarial Bias from Injection to Distillation in Language Models	May 30, 2025	Bias DetectionCode Generation	—Unverified	0
Challenges and Applications of Automated Extraction of Socio-political Events from Text (CASE 2021): Workshop and Shared Task Report	Aug 17, 2021	Bias DetectionLearning Word Embeddings	—Unverified	0
ChatGPT v.s. Media Bias: A Comparative Study of GPT-3.5 and Fine-tuned Language Models	Mar 29, 2024	Bias Detection	—Unverified	0
Classifier-to-Bias: Toward Unsupervised Automatic Bias Detection for Visual Classifiers	Jan 1, 2025	Bias DetectionLarge Language Model	—Unverified	0
Cognitive Bias Detection Using Advanced Prompt Engineering	Mar 7, 2025	Bias DetectionDecision Making	—Unverified	0
Detecting Cross-Geographic Biases in Toxicity Modeling on Social Media	Apr 14, 2021	Bias Detection	—Unverified	0
Auditing a Dutch Public Sector Risk Profiling Algorithm Using an Unsupervised Bias Detection Tool	Feb 3, 2025	Bias DetectionClustering	—Unverified	0

Show:10 25 50

← PrevPage 1 of 4Next →

All datasets StereoSet rt-inod-bias ICAT LLM bias PlantVillage_8px Wiki Neutrality Corpus

Benchmark Results

#	Model	Metric	Claimed	Verified	Status
1	GPT-2 (small)	ICAT Score	72.97	—	Unverified
2	XLNet (large)	ICAT Score	72.03	—	Unverified
3	GPT-2 (medium)	ICAT Score	71.73	—	Unverified
4	BERT (base)	ICAT Score	71.21	—	Unverified
5	GPT-2 (large)	ICAT Score	70.54	—	Unverified
6	BERT (large)	ICAT Score	69.89	—	Unverified
7	RoBERTa (base)	ICAT Score	67.5	—	Unverified
8	GAL 120B	ICAT Score	65.6	—	Unverified
9	XLNet (base)	ICAT Score	62.1	—	Unverified
10	GPT-3 (text-davinci-002)	ICAT Score	60.8	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	GPT-4	Best-of	0.5	—	Unverified
2	Baseline	Best-of	0.41	—	Unverified
3	Gemma	Best-of	0.41	—	Unverified
4	Mistral	Best-of	0.36	—	Unverified
5	Llama2	Best-of	0.34	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	BAD	ICAT Score	23.44	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	RandomForest_default_hyperparameters	Accuracy (%)	49	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	RoBERTa+ALBERT	F1	70.4	—	Unverified