Red Teaming

Papers

Recently Added Most Hyped Most Active Needs Verification Most Verified

Showing 226–250 of 251 papers

Title	Date	Tasks	Status
EVA: Red-Teaming GUI Agents via Evolving Indirect Prompt Injection	May 20, 2025	Red Teaming	—Unverified
Red teaming ChatGPT via Jailbreaking: Bias, Robustness, Reliability and Toxicity	Jan 30, 2023	EthicsLanguage Modelling	—Unverified
Exploring Straightforward Conversational Red-Teaming	Sep 7, 2024	Red Teaming	—Unverified
Exploring the Vulnerability of the Content Moderation Guardrail in Large Language Models via Intent Manipulation	May 24, 2025	Intent DetectionNatural Language Understanding	—Unverified
Fast Proxies for LLM Robustness Evaluation	Feb 14, 2025	Red Teaming	—Unverified
Embodied Red Teaming for Auditing Robotic Foundation Models	Nov 27, 2024	Red Teaming	—Unverified
Finding Safety Neurons in Large Language Models	Jun 20, 2024	MisinformationRed Teaming	—Unverified
ELAB: Extensive LLM Alignment Benchmark in Persian Language	Apr 17, 2025	FairnessRed Teaming	—Unverified
FLIRT: Feedback Loop In-context Red Teaming	Aug 8, 2023	In-Context LearningRed Teaming	—Unverified
Games for AI Control: Models of Safety Evaluations of AI Deployment Protocols	Sep 12, 2024	Decision MakingRed Teaming	—Unverified
Effective Red-Teaming of Policy-Adherent Agents	Jun 11, 2025	Red Teaming	—Unverified
DMRL: Data- and Model-aware Reward Learning for Data Extraction	May 7, 2025	Prompt EngineeringRed Teaming	—Unverified
Diverse and Effective Red Teaming with Auto-generated Rewards and Multi-step Reinforcement Learning	Dec 24, 2024	DiversityLarge Language Model	—Unverified
GhostPrompt: Jailbreaking Text-to-image Generative Models based on Dynamic Optimization	May 25, 2025	Large Language ModelRed Teaming	—Unverified
Direct Unlearning Optimization for Robust and Safe Text-to-Image Models	Jul 17, 2024	Red Teaming	—Unverified
Digital cloning of online social networks for language-sensitive agent-based modeling of misinformation spread	Jan 23, 2024	MisinformationRed Teaming	—Unverified
Gradient-Based Language Model Red Teaming	Jan 30, 2024	Language ModelingLanguage Modelling	—Unverified
h4rm3l: A language for Composable Jailbreak Attack Synthesis	Aug 9, 2024	BenchmarkingProgram Synthesis	—Unverified
"Haet Bhasha aur Diskrimineshun": Phonetic Perturbations in Code-Mixed Hinglish to Red-Team LLMs	May 20, 2025	Image GenerationRed Teaming	—Unverified
DiffZOO: A Purely Query-Based Black-Box Attack for Red-teaming Text-to-Image Generative Model via Zeroth Order Optimization	Aug 18, 2024	Red Teaming	—Unverified
Hidden Ghost Hand: Unveiling Backdoor Vulnerabilities in MLLM-Powered Mobile GUI Agents	May 20, 2025	Contrastive LearningRed Teaming	—Unverified
Atoxia: Red-teaming Large Language Models with Target Toxic Answers	Aug 27, 2024	Prompt EngineeringRed Teaming	—Unverified
HRLAIF: Improvements in Helpfulness and Harmlessness in Open-domain Reinforcement Learning From AI Feedback	Mar 13, 2024	Language ModellingLarge Language Model	—Unverified
Desert Camels and Oil Sheikhs: Arab-Centric Red Teaming of Frontier LLMs	Oct 31, 2024	Red Teaming	—Unverified
In-Context Experience Replay Facilitates Safety Red-Teaming of Text-to-Image Diffusion Models	Nov 25, 2024	Red TeamingSemantic Similarity	—Unverified

Show:10 25 50

← PrevPage 10 of 11Next →

Benchmark Results

#	Model	Metric	Claimed	Verified	Status
1	SUDO	Attack Success Rate	41	—	Unverified