Red Teaming

Papers

Recently Added Most Hyped Most Active Needs Verification Most Verified

Showing 101–150 of 251 papers

Title	Date	Tasks	Status
Offensive Security for AI Systems: Concepts, Practices, and Applications	May 9, 2025	Red Teaming	—Unverified
AgentVigil: Generic Black-Box Red-teaming for Indirect Prompt Injection against LLM Agents	May 9, 2025	NavigateRed Teaming	—Unverified
Safety by Measurement: A Systematic Literature Review of AI Safety Evaluation Methods	May 8, 2025	Red TeamingSystematic Literature Review	—Unverified
DMRL: Data- and Model-aware Reward Learning for Data Extraction	May 7, 2025	Prompt EngineeringRed Teaming	—Unverified
Red Teaming the Mind of the Machine: A Systematic Evaluation of Prompt Injection and Jailbreak Vulnerabilities in LLMs	May 7, 2025	Red Teaming	—Unverified
Red Teaming Large Language Models for Healthcare	May 1, 2025	Language ModelingLanguage Modelling	—Unverified
When Testing AI Tests Us: Safeguarding Mental Health on the Digital Frontlines	Apr 29, 2025	Red Teaming	—Unverified
SAGE: A Generic Framework for LLM Safety Evaluation	Apr 28, 2025	Red TeamingSafety Alignment	CodeCode Available
Understanding and Mitigating Risks of Generative AI in Financial Services	Apr 25, 2025	FairnessRed Teaming	—Unverified
RAG LLMs are Not Safer: A Safety Analysis of Retrieval-Augmented Generation for Large Language Models	Apr 25, 2025	RAGRed Teaming	—Unverified
ELAB: Extensive LLM Alignment Benchmark in Persian Language	Apr 17, 2025	FairnessRed Teaming	—Unverified
X-Teaming: Multi-Turn Jailbreaks and Defenses with Adaptive Multi-Agents	Apr 15, 2025	DiversityRed Teaming	—Unverified
The Structural Safety Generalization Problem	Apr 13, 2025	Red Teaming	CodeCode Available
Multi-lingual Multi-turn Automated Red Teaming for LLMs	Apr 4, 2025	Red Teaming	—Unverified
Strategize Globally, Adapt Locally: A Multi-Turn Red Teaming Agent with Dual-Level Learning	Apr 2, 2025	Red Teaming	—Unverified
Red Teaming with Artificial Intelligence-Driven Cyberattacks: A Scoping Review	Mar 25, 2025	ArticlesRed Teaming	—Unverified
AutoRedTeamer: Autonomous Red Teaming with Lifelong Attack Integration	Mar 20, 2025	Red Teaming	—Unverified
MMDT: Decoding the Trustworthiness and Safety of Multimodal Foundation Models	Mar 19, 2025	Adversarial RobustnessAutonomous Driving	—Unverified
Making Every Step Effective: Jailbreaking Large Vision-Language Models Through Hierarchical KV Equalization	Mar 14, 2025	Red Teaming	—Unverified
A Framework for Evaluating Emerging Cyberattack Capabilities of AI	Mar 14, 2025	Red Teaming	—Unverified
Red Teaming Contemporary AI Models: Insights from Spanish and Basque Perspectives	Mar 13, 2025	Red Teaming	—Unverified
JBFuzz: Jailbreaking LLMs Efficiently and Effectively Using Fuzzing	Mar 12, 2025	Red TeamingSafety Alignment	—Unverified
Reinforced Diffuser for Red Teaming Large Vision-Language Models	Mar 8, 2025	Large Language ModelRed Teaming	—Unverified
MAD-MAX: Modular And Diverse Malicious Attack MiXtures for Automated LLM Red Teaming	Mar 8, 2025	Red Teaming	—Unverified
Know Thy Judge: On the Robustness Meta-Evaluation of LLM Safety Judges	Mar 6, 2025	BenchmarkingLanguage Modeling	—Unverified
LLM-Safety Evaluations Lack Robustness	Mar 4, 2025	Red TeamingResponse Generation	—Unverified
Building Safe GenAI Applications: An End-to-End Overview of Red Teaming for Large Language Models	Mar 3, 2025	Red TeamingSurvey	—Unverified
Be a Multitude to Itself: A Prompt Evolution Framework for Red Teaming	Feb 22, 2025	DiversityIn-Context Learning	—Unverified
Fast Proxies for LLM Robustness Evaluation	Feb 14, 2025	Red Teaming	—Unverified
A Frontier AI Risk Management Framework: Bridging the Gap Between Current AI Practices and Established Risk Management	Feb 10, 2025	ManagementRed Teaming	—Unverified
Predictive Red Teaming: Breaking Policies Without Breaking Robots	Feb 10, 2025	Imitation LearningRed Teaming	—Unverified
KDA: A Knowledge-Distilled Attacker for Generating Diverse Prompts to Jailbreak LLMs	Feb 5, 2025	DiversityPrompt Engineering	—Unverified
Constitutional Classifiers: Defending against Universal Jailbreaks across Thousands of Hours of Red Teaming	Jan 31, 2025	Red Teaming	—Unverified
RICoTA: Red-teaming of In-the-wild Conversation with Test Attempts	Jan 29, 2025	ChatbotRed Teaming	CodeCode Available
Playing Devil's Advocate: Unmasking Toxicity and Vulnerabilities in Large Vision-Language Models	Jan 14, 2025	Red Teaming	—Unverified
Text-Diffusion Red-Teaming of Large Language Models: Unveiling Harmful Behaviors with Proximity Constraints	Jan 14, 2025	Large Language ModelRed Teaming	—Unverified
Lessons From Red Teaming 100 Generative AI Products	Jan 13, 2025	BenchmarkingRed Teaming	—Unverified
Jailbreaking Multimodal Large Language Models via Shuffle Inconsistency	Jan 9, 2025	Red Teaming	—Unverified
Auto-RT: Automatic Jailbreak Strategy Exploration for Red-Teaming Large Language Models	Jan 3, 2025	Red Teaming	—Unverified
Diverse and Effective Red Teaming with Auto-generated Rewards and Multi-step Reinforcement Learning	Dec 24, 2024	DiversityLarge Language Model	—Unverified
OpenAI o1 System Card	Dec 21, 2024	ManagementRed Teaming	—Unverified
POEX: Understanding and Mitigating Policy Executable Jailbreak Attacks against Embodied AI	Dec 21, 2024	LLM JailbreakRed Teaming	—Unverified
AI red-teaming is a sociotechnical challenge: on values, labor, and harms	Dec 12, 2024	Red Teaming	—Unverified
Look Before You Leap: Enhancing Attention and Vigilance Regarding Harmful Content with GuidelineLLM	Dec 10, 2024	Red Teaming	CodeCode Available
Embodied Red Teaming for Auditing Robotic Foundation Models	Nov 27, 2024	Red Teaming	—Unverified
In-Context Experience Replay Facilitates Safety Red-Teaming of Text-to-Image Diffusion Models	Nov 25, 2024	Red TeamingSemantic Similarity	—Unverified
LLMStinger: Jailbreaking LLMs using RL fine-tuned LLMs	Nov 13, 2024	Prompt EngineeringRed Teaming	—Unverified
Desert Camels and Oil Sheikhs: Arab-Centric Red Teaming of Frontier LLMs	Oct 31, 2024	Red Teaming	—Unverified
Audio Is the Achilles' Heel: Red Teaming Audio Large Multimodal Models	Oct 31, 2024	Red TeamingSafety Alignment	CodeCode Available
An Auditing Test To Detect Behavioral Shift in Language Models	Oct 25, 2024	BenchmarkingChange Detection	CodeCode Available

Show:10 25 50

← PrevPage 3 of 6Next →

Benchmark Results

#	Model	Metric	Claimed	Verified	Status
1	SUDO	Attack Success Rate	41	—	Unverified