Bias Detection

Bias detection is the task of detecting and measuring racism, sexism and otherwise discriminatory behavior in a model (Source: https://stereoset.mit.edu/)

Papers

Recently Added Most Hyped Most Active Needs Verification Most Verified

Showing 26–50 of 199 papers

Title	Date	Tasks	Status	Hype
Auditing a Dutch Public Sector Risk Profiling Algorithm Using an Unsupervised Bias Detection Tool	Feb 3, 2025	Bias DetectionClustering	—Unverified	0
Unmasking Conversational Bias in AI Multiagent Systems	Jan 24, 2025	Bias Detection	—Unverified	0
Decoding News Bias: Multi Bias Detection in News Articles	Jan 5, 2025	ArticlesBias Detection	—Unverified	0
Classifier-to-Bias: Toward Unsupervised Automatic Bias Detection for Visual Classifiers	Jan 1, 2025	Bias DetectionLarge Language Model	—Unverified	0
ViLBias: A Comprehensive Framework for Bias Detection through Linguistic and Visual Cues , presenting Annotation Strategies, Evaluation, and Key Challenges	Dec 22, 2024	Bias Detection	CodeCode Available	0
Improved Models for Media Bias Detection and Subcategorization	Dec 16, 2024	ArticlesBias Detection	—Unverified	0
MT-LENS: An all-in-one Toolkit for Better Machine Translation Evaluation	Dec 16, 2024	AllBenchmarking	CodeCode Available	1
Towards Understanding and Quantifying Uncertainty for Text-to-Image Generation	Dec 4, 2024	Bias DetectionDisentanglement	—Unverified	0
MediaSpin: Exploring Media Bias Through Fine-Grained Analysis of News Headlines	Dec 3, 2024	Bias DetectionLanguage Modeling	—Unverified	0
Bias Analysis of AI Models for Undergraduate Student Admissions	Dec 3, 2024	Bias DetectionFairness	—Unverified	0
The Promises and Pitfalls of LLM Annotations in Dataset Labeling: a Case Study on Media Bias Detection	Nov 17, 2024	Bias DetectionHate Speech Detection	CodeCode Available	0
Bias in Large Language Models: Origin, Evaluation, and Mitigation	Nov 16, 2024	Bias Detection	—Unverified	0
Mitigating Bias in Queer Representation within Large Language Models: A Collaborative Agent Approach	Nov 12, 2024	Bias DetectionFairness	CodeCode Available	0
Current State-of-the-Art of Bias Detection and Mitigation in Machine Translation for African and European Languages: a Review	Oct 28, 2024	Bias DetectionDiversity	—Unverified	0
Quantifying Risk Propensities of Large Language Models: Ethical Focus and Bias Detection through Role-Play	Oct 26, 2024	Bias DetectionDecision Making	—Unverified	0
Can We Trust AI Agents? A Case Study of an LLM-Based Multi-Agent System for Ethical AI	Oct 25, 2024	Bias DetectionEthics	—Unverified	0
debiaSAE: Benchmarking and Mitigating Vision-Language Model Bias	Oct 17, 2024	BenchmarkingBias Detection	CodeCode Available	0
With a Grain of SALT: Are LLMs Fair Across Social Dimensions?	Oct 16, 2024	Bias DetectionStory Generation	—Unverified	0
GUS-Net: Social Bias Classification in Text with Generalizations, Unfairness, and Stereotypes	Oct 10, 2024	Bias Detectiontoken-classification	CodeCode Available	0
TinyEmo: Scaling down Emotional Reasoning via Metric Projection	Oct 9, 2024	Bias DetectionClassification	CodeCode Available	0
Mitigating the Risk of Health Inequity Exacerbated by Large Language Models	Oct 7, 2024	Bias DetectionMedical Question Answering	—Unverified	0
Towards Implicit Bias Detection and Mitigation in Multi-Agent LLM Interactions	Oct 3, 2024	Bias Detection	CodeCode Available	0
Counterfactual Token Generation in Large Language Models	Sep 25, 2024	Bias Detectioncounterfactual	CodeCode Available	1
Towards Fairer Health Recommendations: finding informative unbiased samples via Word Sense Disambiguation	Sep 11, 2024	Bias DetectionFairness	—Unverified	0
Explainable AI for computational pathology identifies model limitations and tissue biomarkers	Sep 4, 2024	Bias Detectioncounterfactual	CodeCode Available	1

Show:10 25 50

← PrevPage 2 of 8Next →

All datasets StereoSet rt-inod-bias ICAT LLM bias PlantVillage_8px Wiki Neutrality Corpus

Benchmark Results

#	Model	Metric	Claimed	Verified	Status
1	GPT-2 (small)	ICAT Score	72.97	—	Unverified
2	XLNet (large)	ICAT Score	72.03	—	Unverified
3	GPT-2 (medium)	ICAT Score	71.73	—	Unverified
4	BERT (base)	ICAT Score	71.21	—	Unverified
5	GPT-2 (large)	ICAT Score	70.54	—	Unverified
6	BERT (large)	ICAT Score	69.89	—	Unverified
7	RoBERTa (base)	ICAT Score	67.5	—	Unverified
8	GAL 120B	ICAT Score	65.6	—	Unverified
9	XLNet (base)	ICAT Score	62.1	—	Unverified
10	GPT-3 (text-davinci-002)	ICAT Score	60.8	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	GPT-4	Best-of	0.5	—	Unverified
2	Baseline	Best-of	0.41	—	Unverified
3	Gemma	Best-of	0.41	—	Unverified
4	Mistral	Best-of	0.36	—	Unverified
5	Llama2	Best-of	0.34	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	BAD	ICAT Score	23.44	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	RandomForest_default_hyperparameters	Accuracy (%)	49	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	RoBERTa+ALBERT	F1	70.4	—	Unverified