Red Teaming

Papers

Recently Added Most Hyped Most Active Needs Verification Most Verified

Showing 176–200 of 251 papers

Title	Date	Tasks	Status
Red Teaming Contemporary AI Models: Insights from Spanish and Basque Perspectives	Mar 13, 2025	Red Teaming	—Unverified
Red-Teaming for Generative AI: Silver Bullet or Security Theater?	Jan 29, 2024	Red Teaming	—Unverified
Red Teaming Generative AI/NLP, the BB84 quantum cryptography protocol and the NIST-approved Quantum-Resistant Cryptographic Algorithms	Sep 17, 2023	Red Teaming	—Unverified
Red Teaming Large Language Models for Healthcare	May 1, 2025	Language ModelingLanguage Modelling	—Unverified
Red Teaming Models for Hyperspectral Image Analysis Using Explainable AI	Mar 12, 2024	Hyperspectral image analysisHYPERVIEW Challenge	—Unverified
Red-Teaming Text-to-Image Systems by Rule-based Preference Modeling	May 27, 2025	Red Teaming	—Unverified
Red Teaming the Mind of the Machine: A Systematic Evaluation of Prompt Injection and Jailbreak Vulnerabilities in LLMs	May 7, 2025	Red Teaming	—Unverified
Red-Teaming the Stable Diffusion Safety Filter	Oct 3, 2022	Image GenerationRed Teaming	—Unverified
Red Teaming Visual Language Models	Jan 23, 2024	FairnessRed Teaming	—Unverified
Red Teaming with Artificial Intelligence-Driven Cyberattacks: A Scoping Review	Mar 25, 2025	ArticlesRed Teaming	—Unverified
Reinforced Diffuser for Red Teaming Large Vision-Language Models	Mar 8, 2025	Large Language ModelRed Teaming	—Unverified
RRTL: Red Teaming Reasoning Large Language Models in Tool Learning	May 21, 2025	Red Teaming	—Unverified
Ruby Teaming: Improving Quality Diversity Search with Memory for Automated Red Teaming	Jun 17, 2024	DiversityRed Teaming	—Unverified
SafeCOMM: What about Safety Alignment in Fine-Tuned Telecom Large Language Models?	May 29, 2025	DiagnosticRed Teaming	—Unverified
Safety Alignment for Vision Language Models	May 22, 2024	Red TeamingSafety Alignment	—Unverified
Safety by Measurement: A Systematic Literature Review of AI Safety Evaluation Methods	May 8, 2025	Red TeamingSystematic Literature Review	—Unverified
SAGE-RT: Synthetic Alignment data Generation for Safety Evaluation and Red Teaming	Aug 14, 2024	Red TeamingSafety Alignment	—Unverified
Seeing Seeds Beyond Weeds: Green Teaming Generative AI for Beneficial Uses	May 30, 2023	Red Teaming	—Unverified
Shaping Influence and Influencing Shaping: A Computational Red Teaming Trust-based Swarm Intelligence Model	Feb 26, 2018	Red Teaming	—Unverified
STACK: Adversarial Attacks on LLM Safeguard Pipelines	Jun 30, 2025	Red Teaming	—Unverified
STAR: SocioTechnical Approach to Red Teaming Language Models	Jun 17, 2024	Red Teaming	—Unverified
SteerDiff: Steering towards Safe Text-to-Image Diffusion Models	Oct 3, 2024	Image GenerationRed Teaming	—Unverified
Strategize Globally, Adapt Locally: A Multi-Turn Red Teaming Agent with Dual-Level Learning	Apr 2, 2025	Red Teaming	—Unverified
Summon a Demon and Bind it: A Grounded Theory of LLM Red Teaming	Nov 10, 2023	Red Teaming	—Unverified
Testing and Evaluation of Large Language Models: Correctness, Non-Toxicity, and Fairness	Aug 31, 2024	FairnessLanguage Modeling	—Unverified

Show:10 25 50

← PrevPage 8 of 11Next →

Benchmark Results

#	Model	Metric	Claimed	Verified	Status
1	SUDO	Attack Success Rate	41	—	Unverified