Bias Detection

Bias detection is the task of detecting and measuring racism, sexism and otherwise discriminatory behavior in a model (Source: https://stereoset.mit.edu/)

Papers

Recently Added Most Hyped Most Active Needs Verification Most Verified

Showing 26–50 of 199 papers

Title	Date	Tasks	Status
A Review of the Challenges with Massive Web-mined Corpora Used in Large Language Models Pre-Training	Jul 10, 2024	Bias Detection	—Unverified
BENN: Bias Estimation Using Deep Neural Network	Dec 23, 2020	Bias Detection	—Unverified
Adding Instructions during Pretraining: Effective Way of Controlling Toxicity in Language Models	Feb 14, 2023	Bias DetectionData Augmentation	—Unverified
Beyond Explanation: A Case for Exploratory Text Visualizations of Non-Aggregated, Annotated Datasets	Jun 1, 2022	Bias DetectionHate Speech Detection	—Unverified
BiasAlert: A Plug-and-play Tool for Social Bias Detection in LLMs	Jul 14, 2024	Bias DetectionQuestion Answering	—Unverified
BEADs: Bias Evaluation Across Domains	Jun 6, 2024	BenchmarkingBias Detection	—Unverified
Any Large Language Model Can Be a Reliable Judge: Debiasing with a Reasoning-based Bias Detector	May 21, 2025	Bias DetectionIn-Context Learning	—Unverified
Constructive Interpretability with CoLabel: Corroborative Integration, Complementary Features, and Collaborative Learning	May 20, 2022	Bias Detection	—Unverified
Back to Square One: Artifact Detection, Training and Commonsense Disentanglement in the Winograd Schema	Apr 16, 2021	Artifact DetectionBias Detection	—Unverified
A Novel Method for News Article Event-Based Embedding	May 20, 2024	ArticlesBias Detection	—Unverified
A Keyword Based Approach to Understanding the Overpenalization of Marginalized Groups by English Marginal Abuse Models on Twitter	Oct 7, 2022	Bias DetectionFairness	—Unverified
Reinforcement Learning from Multi-role Debates as Feedback for Bias Mitigation in LLMs	Apr 15, 2024	Bias DetectionLogical Reasoning	—Unverified
Annotating and Analyzing Biased Sentences in News Articles using Crowdsourcing	May 1, 2020	ArticlesBias Detection	—Unverified
Auditing Predictive Models for Intersectional Biases	Jun 22, 2023	Bias DetectionFairness	—Unverified
Accurate Uncertainty Estimation and Decomposition in Ensemble Learning	Nov 11, 2019	Bias DetectionEnsemble Learning	—Unverified
Can we Debias Social Stereotypes in AI-Generated Images? Examining Text-to-Image Outputs and User Perceptions	May 27, 2025	Bias Detection	—Unverified
Auditing Algorithmic Fairness in Machine Learning for Health with Severity-Based LOGAN	Nov 16, 2022	Bias DetectionClustering	—Unverified
Can We Trust AI Agents? A Case Study of an LLM-Based Multi-Agent System for Ethical AI	Oct 25, 2024	Bias DetectionEthics	—Unverified
Cascading Adversarial Bias from Injection to Distillation in Language Models	May 30, 2025	Bias DetectionCode Generation	—Unverified
Challenges and Applications of Automated Extraction of Socio-political Events from Text (CASE 2021): Workshop and Shared Task Report	Aug 17, 2021	Bias DetectionLearning Word Embeddings	—Unverified
ChatGPT v.s. Media Bias: A Comparative Study of GPT-3.5 and Fine-tuned Language Models	Mar 29, 2024	Bias Detection	—Unverified
Classifier-to-Bias: Toward Unsupervised Automatic Bias Detection for Visual Classifiers	Jan 1, 2025	Bias DetectionLarge Language Model	—Unverified
Cognitive Bias Detection Using Advanced Prompt Engineering	Mar 7, 2025	Bias DetectionDecision Making	—Unverified
Detecting Cross-Geographic Biases in Toxicity Modeling on Social Media	Apr 14, 2021	Bias Detection	—Unverified
Auditing a Dutch Public Sector Risk Profiling Algorithm Using an Unsupervised Bias Detection Tool	Feb 3, 2025	Bias DetectionClustering	—Unverified

Show:10 25 50

← PrevPage 2 of 8Next →

All datasets StereoSet rt-inod-bias ICAT LLM bias PlantVillage_8px Wiki Neutrality Corpus

Benchmark Results

#	Model	Metric	Claimed	Verified	Status
1	GPT-2 (small)	ICAT Score	72.97	—	Unverified
2	XLNet (large)	ICAT Score	72.03	—	Unverified
3	GPT-2 (medium)	ICAT Score	71.73	—	Unverified
4	BERT (base)	ICAT Score	71.21	—	Unverified
5	GPT-2 (large)	ICAT Score	70.54	—	Unverified
6	BERT (large)	ICAT Score	69.89	—	Unverified
7	RoBERTa (base)	ICAT Score	67.5	—	Unverified
8	GAL 120B	ICAT Score	65.6	—	Unverified
9	XLNet (base)	ICAT Score	62.1	—	Unverified
10	GPT-3 (text-davinci-002)	ICAT Score	60.8	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	GPT-4	Best-of	0.5	—	Unverified
2	Baseline	Best-of	0.41	—	Unverified
3	Gemma	Best-of	0.41	—	Unverified
4	Mistral	Best-of	0.36	—	Unverified
5	Llama2	Best-of	0.34	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	BAD	ICAT Score	23.44	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	RandomForest_default_hyperparameters	Accuracy (%)	49	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	RoBERTa+ALBERT	F1	70.4	—	Unverified