Bias Detection

Bias detection is the task of detecting and measuring racism, sexism and otherwise discriminatory behavior in a model (Source: https://stereoset.mit.edu/)

Papers

Recently Added Most Hyped Most Active Needs Verification Most Verified

Showing 51–100 of 199 papers

Title	Date	Tasks	Status	Score
How Neural Networks Organize Concepts: Introducing Concept Trajectory Analysis for Deep Learning Interpretability	Jun 1, 2025	Bias Detection	CodeCode Available	5
How sensitive are translation systems to extra contexts? Mitigating gender bias in Neural Machine Translation models through relevant contexts	May 22, 2022	Bias DetectionMachine Translation	CodeCode Available	5
IFBiD: Inference-Free Bias Detection	Sep 9, 2021	Bias Detection	CodeCode Available	5
IndiVec: An Exploration of Leveraging Large Language Models for Media Bias Detection with Fine-Grained Bias Indicators	Feb 1, 2024	Bias DetectionInstruction Following	CodeCode Available	5
Investigating Subtler Biases in LLMs: Ageism, Beauty, Institutional, and Nationality Bias in Generative Models	Sep 16, 2023	Age/Bias-conflictingBias Detection	CodeCode Available	5
Language-Agnostic Bias Detection in Language Models with Bias Probing	May 22, 2023	Bias Detection	CodeCode Available	5
LOGAN: Local Group Bias Detection by Clustering	Oct 6, 2020	Bias DetectionBIG-bench Machine Learning	CodeCode Available	5
LUCID-GAN: Conditional Generative Models to Locate Unfairness	Jul 28, 2023	Bias DetectionFairness	CodeCode Available	5
debiaSAE: Benchmarking and Mitigating Vision-Language Model Bias	Oct 17, 2024	BenchmarkingBias Detection	CodeCode Available	5
Measuring Gender Bias in Word Embeddings across Domains and Discovering New Gender Bias Word Categories	Aug 1, 2019	Bias DetectionClustering	CodeCode Available	5
Mind Your Bias: A Critical Review of Bias Detection Methods for Contextual Language Models	Nov 15, 2022	Bias DetectionWord Embeddings	CodeCode Available	5
Mitigating Bias in Queer Representation within Large Language Models: A Collaborative Agent Approach	Nov 12, 2024	Bias DetectionFairness	CodeCode Available	5
Multilingual sentence-level bias detection in Wikipedia	Sep 1, 2019	ArticlesBias Detection	CodeCode Available	5
MAGPIE: Multi-Task Media-Bias Analysis Generalization for Pre-Trained Identification of Expressions	Feb 27, 2024	Bias DetectionFake News Detection	CodeCode Available	5
My Approach = Your Apparatus? Entropy-Based Topic Modeling on Multiple Domain-Specific Text Collections	Nov 25, 2019	ArticlesBias Detection	CodeCode Available	5
NewB: 200,000+ Sentences for Political Bias Detection	Jun 4, 2020	Bias DetectionBinary Classification	CodeCode Available	5
Predicting the Leading Political Ideology of YouTube Channels Using Acoustic, Textual, and Metadata Information	Oct 20, 2019	Bias DetectionMultimodal Deep Learning	CodeCode Available	5
Quantifying Gender Biases Towards Politicians on Reddit	Dec 22, 2021	Bias DetectionGender Bias Detection	CodeCode Available	5
Robust Bias Detection in MLMs and its Application to Human Trait Ratings	Feb 21, 2025	Bias Detection	CodeCode Available	5
RuBia: A Russian Language Bias Detection Dataset	Mar 26, 2024	Bias DetectionDiagnostic	CodeCode Available	5
Second Order WinoBias (SoWinoBias) Test Set for Latent Gender Bias Detection in Coreference Resolution	Sep 28, 2021	Bias Detectioncoreference-resolution	CodeCode Available	5
Social Bias in Large Language Models For Bangla: An Empirical Study on Gender and Religious Bias	Jul 3, 2024	BenchmarkingBias Detection	CodeCode Available	5
The BIAS Detection Framework: Bias Detection in Word Embeddings and Language Models for European Languages	Jul 26, 2024	Bias DetectionDiversity	CodeCode Available	5
The Media Bias Taxonomy: A Systematic Literature Review on the Forms and Automated Detection of Media Bias	Dec 26, 2023	Bias DetectionSystematic Literature Review	CodeCode Available	5
The Promises and Pitfalls of LLM Annotations in Dataset Labeling: a Case Study on Media Bias Detection	Nov 17, 2024	Bias DetectionHate Speech Detection	CodeCode Available	5
TinyEmo: Scaling down Emotional Reasoning via Metric Projection	Oct 9, 2024	Bias DetectionClassification	CodeCode Available	5
To Bias or Not to Bias: Detecting bias in News with bias-detector	May 19, 2025	Bias DetectionSentence	CodeCode Available	5
Towards Automatic Bias Detection in Knowledge Graphs	Sep 19, 2021	Bias DetectionFairness	CodeCode Available	5
Towards Detection of Subjective Bias using Contextualized Word Embeddings	Feb 16, 2020	Bias DetectionPropaganda detection	CodeCode Available	5
Towards Implicit Bias Detection and Mitigation in Multi-Agent LLM Interactions	Oct 3, 2024	Bias Detection	CodeCode Available	5
Trade-Offs Between Fairness and Privacy in Language Modeling	May 24, 2023	Bias DetectionFairness	CodeCode Available	5
Uncovering bias in the PlantVillage dataset	Jun 9, 2022	Bias DetectionDeep Learning	CodeCode Available	5
ViLBias: A Comprehensive Framework for Bias Detection through Linguistic and Visual Cues , presenting Annotation Strategies, Evaluation, and Key Challenges	Dec 22, 2024	Bias Detection	CodeCode Available	5
Evaluating Fairness Metrics in the Presence of Dataset Bias	Sep 24, 2018	Bias DetectionCausal Inference	—Unverified	0
Experiments in News Bias Detection with Pre-Trained Neural Transformers	Jun 14, 2024	Bias DetectionSentence	—Unverified	0
Auditing Algorithmic Fairness in Machine Learning for Health with Severity-Based LOGAN	Nov 16, 2022	Bias DetectionClustering	—Unverified	0
Auditing a Dutch Public Sector Risk Profiling Algorithm Using an Unsupervised Bias Detection Tool	Feb 3, 2025	Bias DetectionClustering	—Unverified	0
Exploiting Transformer-based Multitask Learning for the Detection of Media Bias in News Articles	Nov 7, 2022	ArticlesBias Detection	—Unverified	0
A Survey on Predicting the Factuality and the Bias of News Media	Mar 16, 2021	ArticlesBias Detection	—Unverified	0
Extending Variability-Aware Model Selection with Bias Detection in Machine Learning Projects	Nov 23, 2023	Bias DetectionModel Selection	—Unverified	0
Fair Is Better than Sensational: Man Is to Doctor as Woman Is to Doctor	Jun 1, 2020	Bias DetectionDiagnostic	—Unverified	0
Sexism in the Judiciary	Jun 29, 2021	Bias Detection	—Unverified	0
Sexism in the Judiciary: The Importance of Bias Definition in NLP and In Our Courts	Aug 1, 2021	Bias Detection	—Unverified	0
Fairness via AI: Bias Reduction in Medical Information	Sep 6, 2021	Bias DetectionFairness	—Unverified	0
FairT2I: Mitigating Social Bias in Text-to-Image Generation via Large Language Model-Assisted Detection and Attribute Rebalancing	Feb 6, 2025	AttributeBias Detection	—Unverified	0
Fine-Grained Bias Detection in LLM: Enhancing detection mechanisms for nuanced biases	Mar 8, 2025	Bias Detectioncounterfactual	—Unverified	0
Towards WinoQueer: Developing a Benchmark for Anti-Queer Bias in Large Language Models	Jun 23, 2022	Bias Detection	—Unverified	0
Sparse Interventions in Language Models with Differentiable Masking	Dec 13, 2021	Bias DetectionGender Bias Detection	—Unverified	0
A Study on Bias Detection and Classification in Natural Language Processing	Aug 14, 2024	Bias DetectionHate Speech Detection	—Unverified	0
A Deep Dive into Effects of Structural Bias on CMA-ES Performance along Affine Trajectories	Apr 26, 2024	Bias Detection	—Unverified	0

Show:10 25 50

← PrevPage 2 of 4Next →

All datasets StereoSet rt-inod-bias ICAT LLM bias PlantVillage_8px Wiki Neutrality Corpus

Benchmark Results

#	Model	Metric	Claimed	Verified	Status
1	GPT-2 (small)	ICAT Score	72.97	—	Unverified
2	XLNet (large)	ICAT Score	72.03	—	Unverified
3	GPT-2 (medium)	ICAT Score	71.73	—	Unverified
4	BERT (base)	ICAT Score	71.21	—	Unverified
5	GPT-2 (large)	ICAT Score	70.54	—	Unverified
6	BERT (large)	ICAT Score	69.89	—	Unverified
7	RoBERTa (base)	ICAT Score	67.5	—	Unverified
8	GAL 120B	ICAT Score	65.6	—	Unverified
9	XLNet (base)	ICAT Score	62.1	—	Unverified
10	GPT-3 (text-davinci-002)	ICAT Score	60.8	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	GPT-4	Best-of	0.5	—	Unverified
2	Baseline	Best-of	0.41	—	Unverified
3	Gemma	Best-of	0.41	—	Unverified
4	Mistral	Best-of	0.36	—	Unverified
5	Llama2	Best-of	0.34	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	BAD	ICAT Score	23.44	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	RandomForest_default_hyperparameters	Accuracy (%)	49	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	RoBERTa+ALBERT	F1	70.4	—	Unverified