SOTAVerified|Agents Browse Leaderboard About

Red Teaming

Papers

Recently Added Most Hyped Most Active Needs Verification Most Verified

Showing 221–230 of 251 papers

Title	Date	Tasks	Status	Hype	Score
AgentVigil: Generic Black-Box Red-teaming for Indirect Prompt Injection against LLM Agents	May 9, 2025	NavigateRed Teaming	—Unverified	0	0
Summon a Demon and Bind it: A Grounded Theory of LLM Red Teaming	Nov 10, 2023	Red Teaming	—Unverified	0	0
A Frontier AI Risk Management Framework: Bridging the Gap Between Current AI Practices and Established Risk Management	Feb 10, 2025	ManagementRed Teaming	—Unverified	0	0
GenBreak: Red Teaming Text-to-Image Generators Using Large Language Models	Jun 11, 2025	Large Language ModelRed Teaming	—Unverified	0	0
Testing and Evaluation of Large Language Models: Correctness, Non-Toxicity, and Fairness	Aug 31, 2024	FairnessLanguage Modeling	—Unverified	0	0
EVA: Red-Teaming GUI Agents via Evolving Indirect Prompt Injection	May 20, 2025	Red Teaming	—Unverified	0	0
Red teaming ChatGPT via Jailbreaking: Bias, Robustness, Reliability and Toxicity	Jan 30, 2023	EthicsLanguage Modelling	—Unverified	0	0
Exploring Straightforward Conversational Red-Teaming	Sep 7, 2024	Red Teaming	—Unverified	0	0
Exploring the Vulnerability of the Content Moderation Guardrail in Large Language Models via Intent Manipulation	May 24, 2025	Intent DetectionNatural Language Understanding	—Unverified	0	0
Fast Proxies for LLM Robustness Evaluation	Feb 14, 2025	Red Teaming	—Unverified	0	0

Show:10 25 50

← PrevPage 23 of 26Next →

Benchmark Results

#	Model	Metric	Claimed	Verified	Status
1	SUDO	Attack Success Rate	41	—	Unverified