Bias Detection

Bias detection is the task of detecting and measuring racism, sexism and otherwise discriminatory behavior in a model (Source: https://stereoset.mit.edu/)

Papers

Recently Added Most Hyped Most Active Needs Verification Most Verified

Showing 76–100 of 199 papers

Title	Date	Tasks	Status
Decoding Biases: Automated Methods and LLM Judges for Gender Bias Detection in Language Models	Aug 7, 2024	Bias DetectionGender Bias Detection	—Unverified
The BIAS Detection Framework: Bias Detection in Word Embeddings and Language Models for European Languages	Jul 26, 2024	Bias DetectionDiversity	CodeCode Available
BiasScanner: Automatic Detection and Classification of News Bias to Strengthen Democracy	Jul 15, 2024	ArticlesBias Detection	—Unverified
BiasAlert: A Plug-and-play Tool for Social Bias Detection in LLMs	Jul 14, 2024	Bias DetectionQuestion Answering	—Unverified
A Review of the Challenges with Massive Web-mined Corpora Used in Large Language Models Pre-Training	Jul 10, 2024	Bias Detection	—Unverified
Epistemological Bias As a Means for the Automated Detection of Injustices in Text	Jul 8, 2024	Bias Detection	—Unverified
Seeing Like an AI: How LLMs Apply (and Misapply) Wikipedia Neutrality Norms	Jul 4, 2024	Bias DetectionTask 2	—Unverified
Social Bias in Large Language Models For Bangla: An Empirical Study on Gender and Religious Bias	Jul 3, 2024	BenchmarkingBias Detection	CodeCode Available
A Study of Nationality Bias in Names and Perplexity using Off-the-Shelf Affect-related Tweet Classifiers	Jul 1, 2024	Bias Detectioncounterfactual	CodeCode Available
DocNet: Semantic Structure in Inductive Bias Detection Models	Jun 16, 2024	ArticlesBias Detection	—Unverified
Experiments in News Bias Detection with Pre-Trained Neural Transformers	Jun 14, 2024	Bias DetectionSentence	—Unverified
BEADs: Bias Evaluation Across Domains	Jun 6, 2024	BenchmarkingBias Detection	—Unverified
Evaluating AI fairness in credit scoring with the BRIO tool	Jun 5, 2024	Bias DetectionFairness	—Unverified
Gender Bias Detection in Court Decisions: A Brazilian Case Study	Jun 1, 2024	Bias DetectionGender Bias Detection	CodeCode Available
The Point of View of a Sentiment: Towards Clinician Bias Detection in Psychiatric Notes	May 31, 2024	Bias DetectionIn-Context Learning	—Unverified
DispaRisk: Auditing Fairness Through Usable Information	May 20, 2024	BenchmarkingBias Detection	CodeCode Available
A Novel Method for News Article Event-Based Embedding	May 20, 2024	ArticlesBias Detection	—Unverified
A Deep Dive into Effects of Structural Bias on CMA-ES Performance along Affine Trajectories	Apr 26, 2024	Bias Detection	—Unverified
Reinforcement Learning from Multi-role Debates as Feedback for Bias Mitigation in LLMs	Apr 15, 2024	Bias DetectionLogical Reasoning	—Unverified
The Impact of Unstated Norms in Bias Analysis of Language Models	Apr 4, 2024	Bias Detectioncounterfactual	—Unverified
ChatGPT v.s. Media Bias: A Comparative Study of GPT-3.5 and Fine-tuned Language Models	Mar 29, 2024	Bias Detection	—Unverified
Implications of the AI Act for Non-Discrimination Law and Algorithmic Fairness	Mar 29, 2024	Bias DetectionEthics	—Unverified
DeNetDM: Debiasing by Network Depth Modulation	Mar 28, 2024	Bias DetectionMitigating Contextual Bias	CodeCode Available
RuBia: A Russian Language Bias Detection Dataset	Mar 26, 2024	Bias DetectionDiagnostic	CodeCode Available
MAGPIE: Multi-Task Media-Bias Analysis Generalization for Pre-Trained Identification of Expressions	Feb 27, 2024	Bias DetectionFake News Detection	CodeCode Available

Show:10 25 50

← PrevPage 4 of 8Next →

All datasets StereoSet rt-inod-bias ICAT LLM bias PlantVillage_8px Wiki Neutrality Corpus

Benchmark Results

#	Model	Metric	Claimed	Verified	Status
1	GPT-2 (small)	ICAT Score	72.97	—	Unverified
2	XLNet (large)	ICAT Score	72.03	—	Unverified
3	GPT-2 (medium)	ICAT Score	71.73	—	Unverified
4	BERT (base)	ICAT Score	71.21	—	Unverified
5	GPT-2 (large)	ICAT Score	70.54	—	Unverified
6	BERT (large)	ICAT Score	69.89	—	Unverified
7	RoBERTa (base)	ICAT Score	67.5	—	Unverified
8	GAL 120B	ICAT Score	65.6	—	Unverified
9	XLNet (base)	ICAT Score	62.1	—	Unverified
10	GPT-3 (text-davinci-002)	ICAT Score	60.8	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	GPT-4	Best-of	0.5	—	Unverified
2	Baseline	Best-of	0.41	—	Unverified
3	Gemma	Best-of	0.41	—	Unverified
4	Mistral	Best-of	0.36	—	Unverified
5	Llama2	Best-of	0.34	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	BAD	ICAT Score	23.44	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	RandomForest_default_hyperparameters	Accuracy (%)	49	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	RoBERTa+ALBERT	F1	70.4	—	Unverified