Red Teaming

Papers

Recently Added Most Hyped Most Active Needs Verification Most Verified

Showing 176–200 of 251 papers

Title	Date	Tasks	Status	Hype
Against The Achilles' Heel: A Survey on Red Teaming for Generative Models	Mar 31, 2024	Red TeamingSurvey	CodeCode Available	2
Aurora-M: Open Source Continual Pre-training for Multilingual Language and Code	Mar 30, 2024	Continual PretrainingLanguage Modelling	—Unverified	0
IterAlign: Iterative Constitutional Alignment of Large Language Models	Mar 27, 2024	Red Teaming	—Unverified	0
HRLAIF: Improvements in Helpfulness and Harmlessness in Open-domain Reinforcement Learning From AI Feedback	Mar 13, 2024	Language ModellingLarge Language Model	—Unverified	0
Distract Large Language Models for Automatic Jailbreak Attack	Mar 13, 2024	Red Teaming	CodeCode Available	0
Red Teaming Models for Hyperspectral Image Analysis Using Explainable AI	Mar 12, 2024	Hyperspectral image analysisHYPERVIEW Challenge	—Unverified	0
Defending Against Unforeseen Failure Modes with Latent Adversarial Training	Mar 8, 2024	image-classificationImage Classification	CodeCode Available	1
Aligners: Decoupling LLMs and Alignment	Mar 7, 2024	Instruction FollowingRed Teaming	CodeCode Available	0
A Safe Harbor for AI Evaluation and Red Teaming	Mar 7, 2024	Red Teaming	—Unverified	0
Curiosity-driven Red-teaming for Large Language Models	Feb 29, 2024	Red TeamingReinforcement Learning (RL)	CodeCode Available	2
AttackGNN: Red-Teaming GNNs in Hardware Security Using Reinforcement Learning	Feb 21, 2024	Graph Neural NetworkRed Teaming	—Unverified	0
Adversarial Nibbler: An Open Red-Teaming Method for Identifying Diverse Harms in Text-to-Image Generation	Feb 14, 2024	Image GenerationRed Teaming	CodeCode Available	1
Agent Smith: A Single Image Can Jailbreak One Million Multimodal LLM Agents Exponentially Fast	Feb 13, 2024	Language ModellingLarge Language Model	CodeCode Available	2
HarmBench: A Standardized Evaluation Framework for Automated Red Teaming and Robust Refusal	Feb 6, 2024	Red Teaming	CodeCode Available	4
Investigating Bias Representations in Llama 2 Chat via Activation Steering	Feb 1, 2024	Decision MakingRed Teaming	—Unverified	0
Gradient-Based Language Model Red Teaming	Jan 30, 2024	Language ModelingLanguage Modelling	CodeCode Available	0
Towards Red Teaming in Multimodal and Multilingual Translation	Jan 29, 2024	Machine TranslationRed Teaming	—Unverified	0
Red-Teaming for Generative AI: Silver Bullet or Security Theater?	Jan 29, 2024	Red Teaming	—Unverified	0
Digital cloning of online social networks for language-sensitive agent-based modeling of misinformation spread	Jan 23, 2024	MisinformationRed Teaming	—Unverified	0
Red Teaming Visual Language Models	Jan 23, 2024	FairnessRed Teaming	—Unverified	0
Sowing the Wind, Reaping the Whirlwind: The Impact of Editing Language Models	Jan 19, 2024	Model EditingRed Teaming	CodeCode Available	0
Red Teaming for Large Language Models At Scale: Tackling Hallucinations on Mathematics Tasks	Dec 30, 2023	Red Teaming	CodeCode Available	0
Causality Analysis for Evaluating the Security of Large Language Models	Dec 13, 2023	Red Teaming	CodeCode Available	1
AI Control: Improving Safety Despite Intentional Subversion	Dec 12, 2023	Red Teaming	CodeCode Available	1
Control Risk for Potential Misuse of Artificial Intelligence in Science	Dec 11, 2023	Red Teaming	CodeCode Available	1

Show:10 25 50

← PrevPage 8 of 11Next →

Benchmark Results

#	Model	Metric	Claimed	Verified	Status
1	SUDO	Attack Success Rate	41	—	Unverified