Red Teaming

Papers

Recently Added Most Hyped Most Active Needs Verification Most Verified

Showing 26–50 of 251 papers

Title	Date	Tasks	Status	Hype	Score
Holistic Automated Red Teaming for Large Language Models through Top-Down Test Case Generation and Multi-turn Interaction	Sep 25, 2024	DiversityRed Teaming	CodeCode Available	1	5
Probabilistic Inference in Language Models via Twisted Sequential Monte Carlo	Apr 26, 2024	Language ModellingPrompt Engineering	CodeCode Available	1	5
Query-Efficient Black-Box Red Teaming via Bayesian Optimization	May 27, 2023	Bayesian OptimizationLanguage Modeling	CodeCode Available	1	5
"Not Aligned" is Not "Malicious": Being Careful about Hallucinations of Large Language Models' Jailbreak	Jun 17, 2024	Red Teaming	CodeCode Available	1	5
Jailbreaking as a Reward Misspecification Problem	Jun 20, 2024	Red Teaming	CodeCode Available	1	5
MLLMGuard: A Multi-dimensional Safety Evaluation Suite for Multimodal Large Language Models	Jun 11, 2024	Red Teaming	CodeCode Available	1	5
OET: Optimization-based prompt injection Evaluation Toolkit	May 1, 2025	Adversarial RobustnessNatural Language Understanding	CodeCode Available	1	5
Defending Against Unforeseen Failure Modes with Latent Adversarial Training	Mar 8, 2024	image-classificationImage Classification	CodeCode Available	1	5
Dialogue Action Tokens: Steering Language Models in Goal-Directed Dialogue with a Multi-Turn Planner	Jun 17, 2024	Language ModelingLanguage Modelling	CodeCode Available	1	5
Learning diverse attacks on large language models for robust red-teaming and safety tuning	May 28, 2024	DiversityLanguage Modeling	CodeCode Available	1	5
Operationalizing a Threat Model for Red-Teaming Large Language Models (LLMs)	Jul 20, 2024	Red Teaming	CodeCode Available	1	5
CoSafe: Evaluating Large Language Model Safety in Multi-Turn Dialogue Coreference	Jun 25, 2024	Language ModelingLanguage Modelling	CodeCode Available	1	5
Control Risk for Potential Misuse of Artificial Intelligence in Science	Dec 11, 2023	Red Teaming	CodeCode Available	1	5
Jailbroken: How Does LLM Safety Training Fail?	Jul 5, 2023	Red Teaming	CodeCode Available	1	5
Language Model Unalignment: Parametric Red-Teaming to Expose Hidden Harms and Biases	Oct 22, 2023	Language ModelingLanguage Modelling	CodeCode Available	1	5
Aloe: A Family of Fine-tuned Open Healthcare LLMs	May 3, 2024	Prompt EngineeringRed Teaming	CodeCode Available	1	5
Trojan Activation Attack: Red-Teaming Large Language Models using Activation Steering for Safety-Alignment	Nov 15, 2023	Red TeamingSafety Alignment	CodeCode Available	1	5
DiveR-CT: Diversity-enhanced Red Teaming Large Language Model Assistants with Relaxing Constraints	May 29, 2024	DiversityLanguage Modeling	CodeCode Available	1	5
Ferret: Faster and Effective Automated Red Teaming with Reward-Based Scoring Technique	Aug 20, 2024	AI and SafetyDiversity	CodeCode Available	1	5
Explore, Establish, Exploit: Red Teaming Language Models from Scratch	Jun 15, 2023	Red Teaming	CodeCode Available	1	5
MTSA: Multi-turn Safety Alignment for LLMs through Multi-round Red-teaming	May 22, 2025	Red TeamingSafety Alignment	CodeCode Available	1	5
Adversarial Nibbler: An Open Red-Teaming Method for Identifying Diverse Harms in Text-to-Image Generation	Feb 14, 2024	Image GenerationRed Teaming	CodeCode Available	1	5
Attack Prompt Generation for Red Teaming and Defending Large Language Models	Oct 19, 2023	In-Context LearningRed Teaming	CodeCode Available	1	5
AI Control: Improving Safety Despite Intentional Subversion	Dec 12, 2023	Red Teaming	CodeCode Available	1	5
Catastrophic Jailbreak of Open-source LLMs via Exploiting Generation	Oct 10, 2023	Red Teaming	CodeCode Available	1	5

Show:10 25 50

← PrevPage 2 of 11Next →

Benchmark Results

#	Model	Metric	Claimed	Verified	Status
1	SUDO	Attack Success Rate	41	—	Unverified