Red Teaming

Papers

Recently Added Most Hyped Most Active Needs Verification Most Verified

Showing 126–150 of 251 papers

Title	Date	Tasks	Status
CTI4AI: Threat Intelligence Generation and Sharing after Red Teaming AI Models	Aug 16, 2022	Red Teaming	—Unverified
CoT Red-Handed: Stress Testing Chain-of-Thought Monitoring	May 29, 2025	Red Teaming	—Unverified
Conversational Complexity for Assessing Risk in Large Language Models	Sep 2, 2024	Red Teaming	—Unverified
Learning from Red Teaming: Gender Bias Provocation and Mitigation in Large Language Models	Oct 17, 2023	In-Context LearningRed Teaming	—Unverified
Lessons From Red Teaming 100 Generative AI Products	Jan 13, 2025	BenchmarkingRed Teaming	—Unverified
Leveraging Reinforcement Learning in Red Teaming for Advanced Ransomware Attack Simulations	Jun 25, 2024	Red TeamingReinforcement Learning (RL)	—Unverified
LLM-Assisted Red Teaming of Diffusion Models through "Failures Are Fated, But Can Be Faded"	Oct 22, 2024	Deep Reinforcement LearningRed Teaming	—Unverified
Constitutional Classifiers: Defending against Universal Jailbreaks across Thousands of Hours of Red Teaming	Jan 31, 2025	Red Teaming	—Unverified
LLM-Safety Evaluations Lack Robustness	Mar 4, 2025	Red TeamingResponse Generation	—Unverified
LLMStinger: Jailbreaking LLMs using RL fine-tuned LLMs	Nov 13, 2024	Prompt EngineeringRed Teaming	—Unverified
The Human Factor in AI Red Teaming: Perspectives from Social and Collaborative Computing	Jul 10, 2024	FairnessRed Teaming	—Unverified
LoRA Fine-tuning Efficiently Undoes Safety Training in Llama 2-Chat 70B	Oct 31, 2023	GPURed Teaming	—Unverified
Low-Resource Languages Jailbreak GPT-4	Oct 3, 2023	Red Teaming	—Unverified
MAD-MAX: Modular And Diverse Malicious Attack MiXtures for Automated LLM Red Teaming	Mar 8, 2025	Red Teaming	—Unverified
Making Every Step Effective: Jailbreaking Large Vision-Language Models Through Hierarchical KV Equalization	Mar 14, 2025	Red Teaming	—Unverified
MART: Improving LLM Safety with Multi-round Automatic Red-Teaming	Nov 13, 2023	Instruction FollowingRed Teaming	—Unverified
Computational Red Teaming in a Sudoku Solving Context: Neural Network Based Skill Representation and Acquisition	Feb 27, 2018	Red Teaming	—Unverified
MMDT: Decoding the Trustworthiness and Safety of Multimodal Foundation Models	Mar 19, 2025	Adversarial RobustnessAutonomous Driving	—Unverified
Model Card and Evaluations for Claude Models	Jul 11, 2023	Arithmetic ReasoningBug fixing	—Unverified
CELL your Model: Contrastive Explanations for Large Language Models	Jun 17, 2024	Red TeamingText Generation	—Unverified
Multi-lingual Multi-turn Automated Red Teaming for LLMs	Apr 4, 2025	Red Teaming	—Unverified
The Multilingual Alignment Prism: Aligning Global and Local Preferences to Reduce Harm	Jun 26, 2024	Cross-Lingual TransferRed Teaming	—Unverified
Can Large Language Models Change User Preference Adversarially?	Jan 5, 2023	Red Teaming	—Unverified
Can Large Language Models Automatically Jailbreak GPT-4V?	Jul 23, 2024	Face RecognitionIn-Context Learning	—Unverified
Offensive Security for AI Systems: Concepts, Practices, and Applications	May 9, 2025	Red Teaming	—Unverified

Show:10 25 50

← PrevPage 6 of 11Next →

Benchmark Results

#	Model	Metric	Claimed	Verified	Status
1	SUDO	Attack Success Rate	41	—	Unverified