Bias Detection

Bias detection is the task of detecting and measuring racism, sexism and otherwise discriminatory behavior in a model (Source: https://stereoset.mit.edu/)

Papers

Recently Added Most Hyped Most Active Needs Verification Most Verified

Showing 101–125 of 199 papers

Title	Date	Tasks	Status
A Review of the Challenges with Massive Web-mined Corpora Used in Large Language Models Pre-Training	Jul 10, 2024	Bias Detection	—Unverified
STOOD-X methodology: using statistical nonparametric test for OOD Detection Large-Scale datasets enhanced with explainability	Apr 3, 2025	Bias DetectionOut of Distribution (OOD) Detection	—Unverified
Subtle Misogyny Detection and Mitigation: An Expert-Annotated Dataset	Nov 15, 2023	Bias DetectionText Generation	—Unverified
Adding Instructions during Pretraining: Effective Way of Controlling Toxicity in Language Models	Feb 14, 2023	Bias DetectionData Augmentation	—Unverified
Towards Integrating Fairness Transparently in Industrial Applications	Jun 10, 2020	Bias DetectionFairness	—Unverified
Target-Aware Contextual Political Bias Detection in News	Oct 2, 2023	Bias DetectionData Augmentation	—Unverified
Team Kermit-the-frog at SemEval-2019 Task 4: Bias Detection Through Sentiment Analysis and Simple Linguistic Features	Jun 1, 2019	Bias DetectionSentiment Analysis	—Unverified
Implications of the AI Act for Non-Discrimination Law and Algorithmic Fairness	Mar 29, 2024	Bias DetectionEthics	—Unverified
Improved Models for Media Bias Detection and Subcategorization	Dec 16, 2024	ArticlesBias Detection	—Unverified
Incorporating Subjectivity into Gendered Ambiguous Pronoun (GAP) Resolution using Style Transfer	Jul 1, 2022	Bias Detectioncoreference-resolution	—Unverified
With a Grain of SALT: Are LLMs Fair Across Social Dimensions?	Oct 16, 2024	Bias DetectionStory Generation	—Unverified
Inferring bias and uncertainty in camera calibration	Jul 28, 2021	Bias DetectionCamera Calibration	—Unverified
InsideBias: Measuring Bias in Deep Networks and Application to Face Gender Biometrics	Apr 14, 2020	Bias Detection	—Unverified
Any Large Language Model Can Be a Reliable Judge: Debiasing with a Reasoning-based Bias Detector	May 21, 2025	Bias DetectionIn-Context Learning	—Unverified
Investigating Bias in Image Classification using Model Explanations	Dec 10, 2020	Bias DetectionClassification	—Unverified
Accurate Uncertainty Estimation and Decomposition in Ensemble Learning	Nov 11, 2019	Bias DetectionEnsemble Learning	—Unverified
iReason: Multimodal Commonsense Reasoning using Videos and Natural Language with Interpretability	Jun 25, 2021	Bias DetectionQuestion Answering	—Unverified
The Impact of Presentation Style on Human-In-The-Loop Detection of Algorithmic Bias	Apr 26, 2020	Bias DetectionBIG-bench Machine Learning	—Unverified
Large Language Model (LLM) Bias Index -- LLMBI	Dec 22, 2023	Bias DetectionFairness	—Unverified
Large-scale news entity sentiment analysis	Sep 1, 2017	ArticlesBias Detection	—Unverified
A Novel Method for News Article Event-Based Embedding	May 20, 2024	ArticlesBias Detection	—Unverified
LLMs can be easily Confused by Instructional Distractions	Feb 5, 2025	Bias DetectionCode Generation	—Unverified
Unboxing Occupational Bias: Grounded Debiasing of LLMs with U.S. Labor Data	Aug 20, 2024	Bias Detection	—Unverified
The Point of View of a Sentiment: Towards Clinician Bias Detection in Psychiatric Notes	May 31, 2024	Bias DetectionIn-Context Learning	—Unverified
Split and Expand: An inference-time improvement for Weakly Supervised Cell Instance Segmentation	Jul 21, 2020	Bias DetectionInstance Segmentation	—Unverified

Show:10 25 50

← PrevPage 5 of 8Next →

All datasets StereoSet rt-inod-bias ICAT LLM bias PlantVillage_8px Wiki Neutrality Corpus

Benchmark Results

#	Model	Metric	Claimed	Verified	Status
1	GPT-2 (small)	ICAT Score	72.97	—	Unverified
2	XLNet (large)	ICAT Score	72.03	—	Unverified
3	GPT-2 (medium)	ICAT Score	71.73	—	Unverified
4	BERT (base)	ICAT Score	71.21	—	Unverified
5	GPT-2 (large)	ICAT Score	70.54	—	Unverified
6	BERT (large)	ICAT Score	69.89	—	Unverified
7	RoBERTa (base)	ICAT Score	67.5	—	Unverified
8	GAL 120B	ICAT Score	65.6	—	Unverified
9	XLNet (base)	ICAT Score	62.1	—	Unverified
10	GPT-3 (text-davinci-002)	ICAT Score	60.8	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	GPT-4	Best-of	0.5	—	Unverified
2	Baseline	Best-of	0.41	—	Unverified
3	Gemma	Best-of	0.41	—	Unverified
4	Mistral	Best-of	0.36	—	Unverified
5	Llama2	Best-of	0.34	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	BAD	ICAT Score	23.44	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	RandomForest_default_hyperparameters	Accuracy (%)	49	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	RoBERTa+ALBERT	F1	70.4	—	Unverified