Bias Detection

Bias detection is the task of detecting and measuring racism, sexism and otherwise discriminatory behavior in a model (Source: https://stereoset.mit.edu/)

Papers

Recently Added Most Hyped Most Active Needs Verification Most Verified

Showing 51–100 of 199 papers

Title	Date	Tasks	Status
Unmasking Conversational Bias in AI Multiagent Systems	Jan 24, 2025	Bias Detection	—Unverified
Decoding News Bias: Multi Bias Detection in News Articles	Jan 5, 2025	ArticlesBias Detection	—Unverified
Classifier-to-Bias: Toward Unsupervised Automatic Bias Detection for Visual Classifiers	Jan 1, 2025	Bias DetectionLarge Language Model	—Unverified
ViLBias: A Comprehensive Framework for Bias Detection through Linguistic and Visual Cues , presenting Annotation Strategies, Evaluation, and Key Challenges	Dec 22, 2024	Bias Detection	CodeCode Available
Improved Models for Media Bias Detection and Subcategorization	Dec 16, 2024	ArticlesBias Detection	—Unverified
Towards Understanding and Quantifying Uncertainty for Text-to-Image Generation	Dec 4, 2024	Bias DetectionDisentanglement	—Unverified
Bias Analysis of AI Models for Undergraduate Student Admissions	Dec 3, 2024	Bias DetectionFairness	—Unverified
MediaSpin: Exploring Media Bias Through Fine-Grained Analysis of News Headlines	Dec 3, 2024	Bias DetectionLanguage Modeling	—Unverified
The Promises and Pitfalls of LLM Annotations in Dataset Labeling: a Case Study on Media Bias Detection	Nov 17, 2024	Bias DetectionHate Speech Detection	CodeCode Available
Bias in Large Language Models: Origin, Evaluation, and Mitigation	Nov 16, 2024	Bias Detection	—Unverified
Mitigating Bias in Queer Representation within Large Language Models: A Collaborative Agent Approach	Nov 12, 2024	Bias DetectionFairness	CodeCode Available
Current State-of-the-Art of Bias Detection and Mitigation in Machine Translation for African and European Languages: a Review	Oct 28, 2024	Bias DetectionDiversity	—Unverified
Quantifying Risk Propensities of Large Language Models: Ethical Focus and Bias Detection through Role-Play	Oct 26, 2024	Bias DetectionDecision Making	—Unverified
Can We Trust AI Agents? A Case Study of an LLM-Based Multi-Agent System for Ethical AI	Oct 25, 2024	Bias DetectionEthics	—Unverified
debiaSAE: Benchmarking and Mitigating Vision-Language Model Bias	Oct 17, 2024	BenchmarkingBias Detection	CodeCode Available
With a Grain of SALT: Are LLMs Fair Across Social Dimensions?	Oct 16, 2024	Bias DetectionStory Generation	—Unverified
GUS-Net: Social Bias Classification in Text with Generalizations, Unfairness, and Stereotypes	Oct 10, 2024	Bias Detectiontoken-classification	CodeCode Available
TinyEmo: Scaling down Emotional Reasoning via Metric Projection	Oct 9, 2024	Bias DetectionClassification	CodeCode Available
Mitigating the Risk of Health Inequity Exacerbated by Large Language Models	Oct 7, 2024	Bias DetectionMedical Question Answering	—Unverified
Towards Implicit Bias Detection and Mitigation in Multi-Agent LLM Interactions	Oct 3, 2024	Bias Detection	CodeCode Available
Towards Fairer Health Recommendations: finding informative unbiased samples via Word Sense Disambiguation	Sep 11, 2024	Bias DetectionFairness	—Unverified
GradBias: Unveiling Word Influence on Bias in Text-to-Image Generative Models	Aug 29, 2024	Bias DetectionFairness	CodeCode Available
Uncovering Biases with Reflective Large Language Models	Aug 24, 2024	Bias DetectionDiagnostic	—Unverified
Unboxing Occupational Bias: Grounded Debiasing of LLMs with U.S. Labor Data	Aug 20, 2024	Bias Detection	—Unverified
A Study on Bias Detection and Classification in Natural Language Processing	Aug 14, 2024	Bias DetectionHate Speech Detection	—Unverified
Decoding Biases: Automated Methods and LLM Judges for Gender Bias Detection in Language Models	Aug 7, 2024	Bias DetectionGender Bias Detection	—Unverified
The BIAS Detection Framework: Bias Detection in Word Embeddings and Language Models for European Languages	Jul 26, 2024	Bias DetectionDiversity	CodeCode Available
BiasScanner: Automatic Detection and Classification of News Bias to Strengthen Democracy	Jul 15, 2024	ArticlesBias Detection	—Unverified
BiasAlert: A Plug-and-play Tool for Social Bias Detection in LLMs	Jul 14, 2024	Bias DetectionQuestion Answering	—Unverified
A Review of the Challenges with Massive Web-mined Corpora Used in Large Language Models Pre-Training	Jul 10, 2024	Bias Detection	—Unverified
Epistemological Bias As a Means for the Automated Detection of Injustices in Text	Jul 8, 2024	Bias Detection	—Unverified
Seeing Like an AI: How LLMs Apply (and Misapply) Wikipedia Neutrality Norms	Jul 4, 2024	Bias DetectionTask 2	—Unverified
Social Bias in Large Language Models For Bangla: An Empirical Study on Gender and Religious Bias	Jul 3, 2024	BenchmarkingBias Detection	CodeCode Available
A Study of Nationality Bias in Names and Perplexity using Off-the-Shelf Affect-related Tweet Classifiers	Jul 1, 2024	Bias Detectioncounterfactual	CodeCode Available
DocNet: Semantic Structure in Inductive Bias Detection Models	Jun 16, 2024	ArticlesBias Detection	—Unverified
Experiments in News Bias Detection with Pre-Trained Neural Transformers	Jun 14, 2024	Bias DetectionSentence	—Unverified
BEADs: Bias Evaluation Across Domains	Jun 6, 2024	BenchmarkingBias Detection	—Unverified
Evaluating AI fairness in credit scoring with the BRIO tool	Jun 5, 2024	Bias DetectionFairness	—Unverified
Gender Bias Detection in Court Decisions: A Brazilian Case Study	Jun 1, 2024	Bias DetectionGender Bias Detection	CodeCode Available
The Point of View of a Sentiment: Towards Clinician Bias Detection in Psychiatric Notes	May 31, 2024	Bias DetectionIn-Context Learning	—Unverified
DispaRisk: Auditing Fairness Through Usable Information	May 20, 2024	BenchmarkingBias Detection	CodeCode Available
A Novel Method for News Article Event-Based Embedding	May 20, 2024	ArticlesBias Detection	—Unverified
A Deep Dive into Effects of Structural Bias on CMA-ES Performance along Affine Trajectories	Apr 26, 2024	Bias Detection	—Unverified
Reinforcement Learning from Multi-role Debates as Feedback for Bias Mitigation in LLMs	Apr 15, 2024	Bias DetectionLogical Reasoning	—Unverified
The Impact of Unstated Norms in Bias Analysis of Language Models	Apr 4, 2024	Bias Detectioncounterfactual	—Unverified
ChatGPT v.s. Media Bias: A Comparative Study of GPT-3.5 and Fine-tuned Language Models	Mar 29, 2024	Bias Detection	—Unverified
Implications of the AI Act for Non-Discrimination Law and Algorithmic Fairness	Mar 29, 2024	Bias DetectionEthics	—Unverified
DeNetDM: Debiasing by Network Depth Modulation	Mar 28, 2024	Bias DetectionMitigating Contextual Bias	CodeCode Available
RuBia: A Russian Language Bias Detection Dataset	Mar 26, 2024	Bias DetectionDiagnostic	CodeCode Available
MAGPIE: Multi-Task Media-Bias Analysis Generalization for Pre-Trained Identification of Expressions	Feb 27, 2024	Bias DetectionFake News Detection	CodeCode Available

Show:10 25 50

← PrevPage 2 of 4Next →

All datasets StereoSet rt-inod-bias ICAT LLM bias PlantVillage_8px Wiki Neutrality Corpus

Benchmark Results

#	Model	Metric	Claimed	Verified	Status
1	GPT-2 (small)	ICAT Score	72.97	—	Unverified
2	XLNet (large)	ICAT Score	72.03	—	Unverified
3	GPT-2 (medium)	ICAT Score	71.73	—	Unverified
4	BERT (base)	ICAT Score	71.21	—	Unverified
5	GPT-2 (large)	ICAT Score	70.54	—	Unverified
6	BERT (large)	ICAT Score	69.89	—	Unverified
7	RoBERTa (base)	ICAT Score	67.5	—	Unverified
8	GAL 120B	ICAT Score	65.6	—	Unverified
9	XLNet (base)	ICAT Score	62.1	—	Unverified
10	GPT-3 (text-davinci-002)	ICAT Score	60.8	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	GPT-4	Best-of	0.5	—	Unverified
2	Baseline	Best-of	0.41	—	Unverified
3	Gemma	Best-of	0.41	—	Unverified
4	Mistral	Best-of	0.36	—	Unverified
5	Llama2	Best-of	0.34	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	BAD	ICAT Score	23.44	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	RandomForest_default_hyperparameters	Accuracy (%)	49	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	RoBERTa+ALBERT	F1	70.4	—	Unverified