Bias Detection

Bias detection is the task of detecting and measuring racism, sexism and otherwise discriminatory behavior in a model (Source: https://stereoset.mit.edu/)

Papers

Recently Added Most Hyped Most Active Needs Verification Most Verified

Showing 151–175 of 199 papers

Title	Date	Tasks	Status
BiasGuard: A Reasoning-enhanced Bias Detection Tool For Large Language Models	Apr 30, 2025	Bias DetectionDecision Making	—Unverified
Bias in Large Language Models: Origin, Evaluation, and Mitigation	Nov 16, 2024	Bias Detection	—Unverified
Bias in word embeddings	Jan 27, 2020	Bias DetectionWord Embeddings	—Unverified
BiasLab: Toward Explainable Political Bias Detection with Dual-Axis Annotations and Rationale Indicators	May 21, 2025	ArticlesBias Detection	—Unverified
BiasScanner: Automatic Detection and Classification of News Bias to Strengthen Democracy	Jul 15, 2024	ArticlesBias Detection	—Unverified
BiaSWE: An Expert Annotated Dataset for Misogyny Detection in Swedish	Feb 11, 2025	Bias DetectionSpecificity	—Unverified
Personalized Detection of Cognitive Biases in Actions of Users from Their Logs: Anchoring and Recency Biases	Jun 30, 2022	Bias DetectionEthics	—Unverified
Towards Equitable AI: Detecting Bias in Using Large Language Models for Marketing	Feb 18, 2025	Bias DetectionMarketing	—Unverified
Can we Debias Social Stereotypes in AI-Generated Images? Examining Text-to-Image Outputs and User Perceptions	May 27, 2025	Bias Detection	—Unverified
Can We Trust AI Agents? A Case Study of an LLM-Based Multi-Agent System for Ethical AI	Oct 25, 2024	Bias DetectionEthics	—Unverified
Cascading Adversarial Bias from Injection to Distillation in Language Models	May 30, 2025	Bias DetectionCode Generation	—Unverified
Challenges and Applications of Automated Extraction of Socio-political Events from Text (CASE 2021): Workshop and Shared Task Report	Aug 17, 2021	Bias DetectionLearning Word Embeddings	—Unverified
ChatGPT v.s. Media Bias: A Comparative Study of GPT-3.5 and Fine-tuned Language Models	Mar 29, 2024	Bias Detection	—Unverified
Classifier-to-Bias: Toward Unsupervised Automatic Bias Detection for Visual Classifiers	Jan 1, 2025	Bias DetectionLarge Language Model	—Unverified
Cognitive Bias Detection Using Advanced Prompt Engineering	Mar 7, 2025	Bias DetectionDecision Making	—Unverified
Constructive Interpretability with CoLabel: Corroborative Integration, Complementary Features, and Collaborative Learning	May 20, 2022	Bias Detection	—Unverified
Pseudo-labelling Enhanced Media Bias Detection	Jul 16, 2021	Bias DetectionData Augmentation	—Unverified
Towards Fairer Health Recommendations: finding informative unbiased samples via Word Sense Disambiguation	Sep 11, 2024	Bias DetectionFairness	—Unverified
BENN: Bias Estimation Using Deep Neural Network	Dec 23, 2020	Bias Detection	—Unverified
Detecting Cross-Geographic Biases in Toxicity Modeling on Social Media	Apr 14, 2021	Bias Detection	—Unverified
Current State-of-the-Art of Bias Detection and Mitigation in Machine Translation for African and European Languages: a Review	Oct 28, 2024	Bias DetectionDiversity	—Unverified
Current Topological and Machine Learning Applications for Bias Detection in Text	Nov 22, 2023	Bias DetectionLanguage Modeling	—Unverified
BEADs: Bias Evaluation Across Domains	Jun 6, 2024	BenchmarkingBias Detection	—Unverified
Reinforcement Learning from Multi-role Debates as Feedback for Bias Mitigation in LLMs	Apr 15, 2024	Bias DetectionLogical Reasoning	—Unverified
Decoding Biases: Automated Methods and LLM Judges for Gender Bias Detection in Language Models	Aug 7, 2024	Bias DetectionGender Bias Detection	—Unverified

Show:10 25 50

← PrevPage 7 of 8Next →

All datasets StereoSet rt-inod-bias ICAT LLM bias PlantVillage_8px Wiki Neutrality Corpus

Benchmark Results

#	Model	Metric	Claimed	Verified	Status
1	GPT-2 (small)	ICAT Score	72.97	—	Unverified
2	XLNet (large)	ICAT Score	72.03	—	Unverified
3	GPT-2 (medium)	ICAT Score	71.73	—	Unverified
4	BERT (base)	ICAT Score	71.21	—	Unverified
5	GPT-2 (large)	ICAT Score	70.54	—	Unverified
6	BERT (large)	ICAT Score	69.89	—	Unverified
7	RoBERTa (base)	ICAT Score	67.5	—	Unverified
8	GAL 120B	ICAT Score	65.6	—	Unverified
9	XLNet (base)	ICAT Score	62.1	—	Unverified
10	GPT-3 (text-davinci-002)	ICAT Score	60.8	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	GPT-4	Best-of	0.5	—	Unverified
2	Baseline	Best-of	0.41	—	Unverified
3	Gemma	Best-of	0.41	—	Unverified
4	Mistral	Best-of	0.36	—	Unverified
5	Llama2	Best-of	0.34	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	BAD	ICAT Score	23.44	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	RandomForest_default_hyperparameters	Accuracy (%)	49	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	RoBERTa+ALBERT	F1	70.4	—	Unverified