Bias Detection

Bias detection is the task of detecting and measuring racism, sexism and otherwise discriminatory behavior in a model (Source: https://stereoset.mit.edu/)

Papers

Recently Added Most Hyped Most Active Needs Verification Most Verified

Showing 151–199 of 199 papers

Title	Date	Tasks	Status
Bipol: Multi-axes Evaluation of Bias with Explainability in Benchmark Datasets	Jan 28, 2023	Bias DetectionDiagnostic	CodeCode Available
DispaRisk: Auditing Fairness Through Usable Information	May 20, 2024	BenchmarkingBias Detection	CodeCode Available
Disentangling Structure and Style: Political Bias Detection in News by Inducing Document Hierarchy	Apr 5, 2023	ArticlesBias Detection	CodeCode Available
ViLBias: A Comprehensive Framework for Bias Detection through Linguistic and Visual Cues , presenting Annotation Strategies, Evaluation, and Key Challenges	Dec 22, 2024	Bias Detection	CodeCode Available
Automated Dependence Plots	Dec 2, 2019	Bias DetectionModel Selection	CodeCode Available
NewB: 200,000+ Sentences for Political Bias Detection	Jun 4, 2020	Bias DetectionBinary Classification	CodeCode Available
Bipol: A Novel Multi-Axes Bias Evaluation Metric with Explainability for NLP	Apr 8, 2023	Bias DetectionSentence	CodeCode Available
Fair is Better than Sensational:Man is to Doctor as Woman is to Doctor	May 23, 2019	Bias DetectionDiagnostic	CodeCode Available
fairmodels: A Flexible Tool For Bias Detection, Visualization, And Mitigation	Apr 1, 2021	Bias DetectionFairness	CodeCode Available
A Study of Nationality Bias in Names and Perplexity using Off-the-Shelf Affect-related Tweet Classifiers	Jul 1, 2024	Bias Detectioncounterfactual	CodeCode Available
A Unified Comparison of User Modeling Techniques for Predicting Data Interaction and Detecting Exploration Bias	Aug 9, 2022	Bias DetectionData Interaction	CodeCode Available
Trade-Offs Between Fairness and Privacy in Language Modeling	May 24, 2023	Bias DetectionFairness	CodeCode Available
Fine-grained Classification of Political Bias in German News: A Data Set and Initial Experiments	Aug 1, 2021	ArticlesBias Detection	CodeCode Available
Forward Composition Propagation for Explainable Neural Reasoning	Dec 23, 2021	Bias DetectionFairness	CodeCode Available
Detection of Puffery on the English Wikipedia	Nov 1, 2021	Bias DetectionInformation Retrieval	CodeCode Available
Gender Bias Detection in Court Decisions: A Brazilian Case Study	Jun 1, 2024	Bias DetectionGender Bias Detection	CodeCode Available
Detecting Media Bias in News Articles using Gaussian Bias Distributions	Oct 20, 2020	ArticlesBias Detection	CodeCode Available
GradBias: Unveiling Word Influence on Bias in Text-to-Image Generative Models	Aug 29, 2024	Bias DetectionFairness	CodeCode Available
GUS-Net: Social Bias Classification in Text with Generalizations, Unfairness, and Stereotypes	Oct 10, 2024	Bias Detectiontoken-classification	CodeCode Available
HeteroCorpus: A Corpus for Heteronormative Language Detection	Jul 1, 2022	Bias DetectionGender Bias Detection	CodeCode Available
How Neural Networks Organize Concepts: Introducing Concept Trajectory Analysis for Deep Learning Interpretability	Jun 1, 2025	Bias Detection	CodeCode Available
How sensitive are translation systems to extra contexts? Mitigating gender bias in Neural Machine Translation models through relevant contexts	May 22, 2022	Bias DetectionMachine Translation	CodeCode Available
IFBiD: Inference-Free Bias Detection	Sep 9, 2021	Bias Detection	CodeCode Available
Predicting the Leading Political Ideology of YouTube Channels Using Acoustic, Textual, and Metadata Information	Oct 20, 2019	Bias DetectionMultimodal Deep Learning	CodeCode Available
Towards Automatic Bias Detection in Knowledge Graphs	Sep 19, 2021	Bias DetectionFairness	CodeCode Available
Quantifying Gender Biases Towards Politicians on Reddit	Dec 22, 2021	Bias DetectionGender Bias Detection	CodeCode Available
IndiVec: An Exploration of Leveraging Large Language Models for Media Bias Detection with Fine-Grained Bias Indicators	Feb 1, 2024	Bias DetectionInstruction Following	CodeCode Available
Towards Implicit Bias Detection and Mitigation in Multi-Agent LLM Interactions	Oct 3, 2024	Bias Detection	CodeCode Available
The BIAS Detection Framework: Bias Detection in Word Embeddings and Language Models for European Languages	Jul 26, 2024	Bias DetectionDiversity	CodeCode Available
DeNetDM: Debiasing by Network Depth Modulation	Mar 28, 2024	Bias DetectionMitigating Contextual Bias	CodeCode Available
A Domain-adaptive Pre-training Approach for Language Bias Detection in News	May 22, 2022	Bias DetectionDecision Making	CodeCode Available
Investigating Subtler Biases in LLMs: Ageism, Beauty, Institutional, and Nationality Bias in Generative Models	Sep 16, 2023	Age/Bias-conflictingBias Detection	CodeCode Available
Robust Bias Detection in MLMs and its Application to Human Trait Ratings	Feb 21, 2025	Bias Detection	CodeCode Available
Language-Agnostic Bias Detection in Language Models with Bias Probing	May 22, 2023	Bias Detection	CodeCode Available
RuBia: A Russian Language Bias Detection Dataset	Mar 26, 2024	Bias DetectionDiagnostic	CodeCode Available
Towards Detection of Subjective Bias using Contextualized Word Embeddings	Feb 16, 2020	Bias DetectionPropaganda detection	CodeCode Available
Corpora Evaluation and System Bias Detection in Multi-document Summarization	Oct 5, 2020	Bias DetectionDocument Summarization	CodeCode Available
Second Order WinoBias (SoWinoBias) Test Set for Latent Gender Bias Detection in Coreference Resolution	Sep 28, 2021	Bias Detectioncoreference-resolution	CodeCode Available
LOGAN: Local Group Bias Detection by Clustering	Oct 6, 2020	Bias DetectionBIG-bench Machine Learning	CodeCode Available
LUCID-GAN: Conditional Generative Models to Locate Unfairness	Jul 28, 2023	Bias DetectionFairness	CodeCode Available
The Media Bias Taxonomy: A Systematic Literature Review on the Forms and Automated Detection of Media Bias	Dec 26, 2023	Bias DetectionSystematic Literature Review	CodeCode Available
debiaSAE: Benchmarking and Mitigating Vision-Language Model Bias	Oct 17, 2024	BenchmarkingBias Detection	CodeCode Available
Uncovering bias in the PlantVillage dataset	Jun 9, 2022	Bias DetectionDeep Learning	CodeCode Available
Measuring Gender Bias in Word Embeddings across Domains and Discovering New Gender Bias Word Categories	Aug 1, 2019	Bias DetectionClustering	CodeCode Available
The Promises and Pitfalls of LLM Annotations in Dataset Labeling: a Case Study on Media Bias Detection	Nov 17, 2024	Bias DetectionHate Speech Detection	CodeCode Available
Mind Your Bias: A Critical Review of Bias Detection Methods for Contextual Language Models	Nov 15, 2022	Bias DetectionWord Embeddings	CodeCode Available
Mitigating Bias in Queer Representation within Large Language Models: A Collaborative Agent Approach	Nov 12, 2024	Bias DetectionFairness	CodeCode Available
Social Bias in Large Language Models For Bangla: An Empirical Study on Gender and Religious Bias	Jul 3, 2024	BenchmarkingBias Detection	CodeCode Available
TinyEmo: Scaling down Emotional Reasoning via Metric Projection	Oct 9, 2024	Bias DetectionClassification	CodeCode Available

Show:10 25 50

← PrevPage 4 of 4Next →

All datasets StereoSet rt-inod-bias ICAT LLM bias PlantVillage_8px Wiki Neutrality Corpus

Benchmark Results

#	Model	Metric	Claimed	Verified	Status
1	GPT-2 (small)	ICAT Score	72.97	—	Unverified
2	XLNet (large)	ICAT Score	72.03	—	Unverified
3	GPT-2 (medium)	ICAT Score	71.73	—	Unverified
4	BERT (base)	ICAT Score	71.21	—	Unverified
5	GPT-2 (large)	ICAT Score	70.54	—	Unverified
6	BERT (large)	ICAT Score	69.89	—	Unverified
7	RoBERTa (base)	ICAT Score	67.5	—	Unverified
8	GAL 120B	ICAT Score	65.6	—	Unverified
9	XLNet (base)	ICAT Score	62.1	—	Unverified
10	GPT-3 (text-davinci-002)	ICAT Score	60.8	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	GPT-4	Best-of	0.5	—	Unverified
2	Baseline	Best-of	0.41	—	Unverified
3	Gemma	Best-of	0.41	—	Unverified
4	Mistral	Best-of	0.36	—	Unverified
5	Llama2	Best-of	0.34	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	BAD	ICAT Score	23.44	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	RandomForest_default_hyperparameters	Accuracy (%)	49	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	RoBERTa+ALBERT	F1	70.4	—	Unverified