Bias Detection

Bias detection is the task of detecting and measuring racism, sexism and otherwise discriminatory behavior in a model (Source: https://stereoset.mit.edu/)

Papers

Recently Added Most Hyped Most Active Needs Verification Most Verified

Showing 126–150 of 199 papers

Title	Date	Tasks	Status
Unboxing Occupational Bias: Grounded Debiasing of LLMs with U.S. Labor Data	Aug 20, 2024	Bias Detection	—Unverified
Uncovering Biases with Reflective Large Language Models	Aug 24, 2024	Bias DetectionDiagnostic	—Unverified
Unlocking Bias Detection: Leveraging Transformer-Based Models for Content Analysis	Sep 30, 2023	Bias DetectionDecision Making	—Unverified
Unmasking Bias in AI: A Systematic Review of Bias Detection and Mitigation Strategies in Electronic Health Record-based Models	Oct 30, 2023	ArticlesBias Detection	—Unverified
Unmasking Conversational Bias in AI Multiagent Systems	Jan 24, 2025	Bias Detection	—Unverified
Unsupervised Bias Detection in College Student Newspapers	Sep 11, 2023	Bias DetectionLanguage Modeling	—Unverified
Visual Reasoning Evaluation of Grok, Deepseek Janus, Gemini, Qwen, Mistral, and ChatGPT	Feb 23, 2025	Bias DetectionVisual Reasoning	—Unverified
With a Grain of SALT: Are LLMs Fair Across Social Dimensions?	Oct 16, 2024	Bias DetectionStory Generation	—Unverified
Efficient Fairness Testing in Large Language Models: Prioritizing Metamorphic Relations for Bias Detection	May 9, 2025	Bias DetectionDiversity	—Unverified
Efficient Gender Debiasing of Pre-trained Indic Language Models	Sep 8, 2022	Bias DetectionCultural Vocal Bursts Intensity Prediction	—Unverified
Enhancing Bias Detection in Political News Using Pragmatic Presupposition	Jul 1, 2020	ArticlesBias Detection	—Unverified
Mitigating the Risk of Health Inequity Exacerbated by Large Language Models	Oct 7, 2024	Bias DetectionMedical Question Answering	—Unverified
Epistemological Bias As a Means for the Automated Detection of Injustices in Text	Jul 8, 2024	Bias Detection	—Unverified
Evaluating AI fairness in credit scoring with the BRIO tool	Jun 5, 2024	Bias DetectionFairness	—Unverified
Evaluating Fairness Metrics in the Presence of Dataset Bias	Sep 24, 2018	Bias DetectionCausal Inference	—Unverified
Experiments in News Bias Detection with Pre-Trained Neural Transformers	Jun 14, 2024	Bias DetectionSentence	—Unverified
Don’t Discard All the Biased Instances: Investigating a Core Assumption in Dataset Bias Mitigation Techniques	Nov 1, 2021	AllBias Detection	CodeCode Available
A methodology to characterize bias and harmful stereotypes in natural language processing in Latin America	Jul 14, 2022	Bias DetectionDecision Making	CodeCode Available
Context in Informational Bias Detection	Dec 3, 2020	ArticlesBias Detection	CodeCode Available
To Bias or Not to Bias: Detecting bias in News with bias-detector	May 19, 2025	Bias DetectionSentence	CodeCode Available
Multilingual sentence-level bias detection in Wikipedia	Sep 1, 2019	ArticlesBias Detection	CodeCode Available
Don't Discard All the Biased Instances: Investigating a Core Assumption in Dataset Bias Mitigation Techniques	Sep 1, 2021	AllBias Detection	CodeCode Available
MAGPIE: Multi-Task Media-Bias Analysis Generalization for Pre-Trained Identification of Expressions	Feb 27, 2024	Bias DetectionFake News Detection	CodeCode Available
My Approach = Your Apparatus? Entropy-Based Topic Modeling on Multiple Domain-Specific Text Collections	Nov 25, 2019	ArticlesBias Detection	CodeCode Available
Can Global XAI Methods Reveal Injected Bias in LLMs? SHAP vs Rule Extraction vs RuleSHAP	May 16, 2025	Bias DetectionMisinformation	CodeCode Available

Show:10 25 50

← PrevPage 6 of 8Next →

All datasets StereoSet rt-inod-bias ICAT LLM bias PlantVillage_8px Wiki Neutrality Corpus

Benchmark Results

#	Model	Metric	Claimed	Verified	Status
1	GPT-2 (small)	ICAT Score	72.97	—	Unverified
2	XLNet (large)	ICAT Score	72.03	—	Unverified
3	GPT-2 (medium)	ICAT Score	71.73	—	Unverified
4	BERT (base)	ICAT Score	71.21	—	Unverified
5	GPT-2 (large)	ICAT Score	70.54	—	Unverified
6	BERT (large)	ICAT Score	69.89	—	Unverified
7	RoBERTa (base)	ICAT Score	67.5	—	Unverified
8	GAL 120B	ICAT Score	65.6	—	Unverified
9	XLNet (base)	ICAT Score	62.1	—	Unverified
10	GPT-3 (text-davinci-002)	ICAT Score	60.8	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	GPT-4	Best-of	0.5	—	Unverified
2	Baseline	Best-of	0.41	—	Unverified
3	Gemma	Best-of	0.41	—	Unverified
4	Mistral	Best-of	0.36	—	Unverified
5	Llama2	Best-of	0.34	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	BAD	ICAT Score	23.44	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	RandomForest_default_hyperparameters	Accuracy (%)	49	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	RoBERTa+ALBERT	F1	70.4	—	Unverified