Red Teaming

Papers

Recently Added Most Hyped Most Active Needs Verification Most Verified

Showing 201–225 of 251 papers

Title	Date	Tasks	Status
Ruby Teaming: Improving Quality Diversity Search with Memory for Automated Red Teaming	Jun 17, 2024	DiversityRed Teaming	—Unverified
SafeCOMM: What about Safety Alignment in Fine-Tuned Telecom Large Language Models?	May 29, 2025	DiagnosticRed Teaming	—Unverified
Safety Alignment for Vision Language Models	May 22, 2024	Red TeamingSafety Alignment	—Unverified
Safety by Measurement: A Systematic Literature Review of AI Safety Evaluation Methods	May 8, 2025	Red TeamingSystematic Literature Review	—Unverified
SAGE-RT: Synthetic Alignment data Generation for Safety Evaluation and Red Teaming	Aug 14, 2024	Red TeamingSafety Alignment	—Unverified
A Multi-Disciplinary Review of Knowledge Acquisition Methods: From Human to Autonomous Eliciting Agents	Feb 27, 2018	General ClassificationRed Teaming	—Unverified
A Mechanism-Based Approach to Mitigating Harms from Persuasive Generative AI	Apr 23, 2024	Prompt EngineeringRed Teaming	—Unverified
Seeing Seeds Beyond Weeds: Green Teaming Generative AI for Beneficial Uses	May 30, 2023	Red Teaming	—Unverified
Shaping Influence and Influencing Shaping: A Computational Red Teaming Trust-based Swarm Intelligence Model	Feb 26, 2018	Red Teaming	—Unverified
AI red-teaming is a sociotechnical challenge: on values, labor, and harms	Dec 12, 2024	Red Teaming	—Unverified
A Formal Framework for Assessing and Mitigating Emergent Security Risks in Generative AI Models: Bridging Theory and Dynamic Risk Mitigation	Oct 15, 2024	Anomaly DetectionRed Teaming	—Unverified
AdvAgent: Controllable Blackbox Red-teaming on Web Agents	Oct 22, 2024	Decision MakingRed Teaming	—Unverified
Understanding and Mitigating Risks of Generative AI in Financial Services	Apr 25, 2025	FairnessRed Teaming	—Unverified
Adversaries Can Misuse Combinations of Safe Models	Jun 20, 2024	Red Teaming	—Unverified
STACK: Adversarial Attacks on LLM Safeguard Pipelines	Jun 30, 2025	Red Teaming	—Unverified
STAR: SocioTechnical Approach to Red Teaming Language Models	Jun 17, 2024	Red Teaming	—Unverified
AART: AI-Assisted Red-Teaming with Diverse Data Generation for New LLM-powered Applications	Nov 14, 2023	DiversityRed Teaming	—Unverified
SteerDiff: Steering towards Safe Text-to-Image Diffusion Models	Oct 3, 2024	Image GenerationRed Teaming	—Unverified
VLFeedback: A Large-Scale AI Feedback Dataset for Large Vision-Language Models Alignment	Oct 12, 2024	DiversityHallucination	—Unverified
Strategize Globally, Adapt Locally: A Multi-Turn Red Teaming Agent with Dual-Level Learning	Apr 2, 2025	Red Teaming	—Unverified
AgentVigil: Generic Black-Box Red-teaming for Indirect Prompt Injection against LLM Agents	May 9, 2025	NavigateRed Teaming	—Unverified
Summon a Demon and Bind it: A Grounded Theory of LLM Red Teaming	Nov 10, 2023	Red Teaming	—Unverified
A Frontier AI Risk Management Framework: Bridging the Gap Between Current AI Practices and Established Risk Management	Feb 10, 2025	ManagementRed Teaming	—Unverified
GenBreak: Red Teaming Text-to-Image Generators Using Large Language Models	Jun 11, 2025	Large Language ModelRed Teaming	—Unverified
Testing and Evaluation of Large Language Models: Correctness, Non-Toxicity, and Fairness	Aug 31, 2024	FairnessLanguage Modeling	—Unverified

Show:10 25 50

← PrevPage 9 of 11Next →

Benchmark Results

#	Model	Metric	Claimed	Verified	Status
1	SUDO	Attack Success Rate	41	—	Unverified