Red Teaming

Papers

Recently Added Most Hyped Most Active Needs Verification Most Verified

Showing 201–250 of 251 papers

Title	Date	Tasks	Status
The Human Factor in AI Red Teaming: Perspectives from Social and Collaborative Computing	Jul 10, 2024	FairnessRed Teaming	—Unverified
The Multilingual Alignment Prism: Aligning Global and Local Preferences to Reduce Harm	Jun 26, 2024	Cross-Lingual TransferRed Teaming	—Unverified
The Promise and Peril of Artificial Intelligence -- Violet Teaming Offers a Balanced Path Forward	Aug 28, 2023	EthicsPhilosophy	—Unverified
Tiny Refinements Elicit Resilience: Toward Efficient Prefix-Model Against LLM Red-Teaming	May 21, 2024	Red Teaming	—Unverified
Towards medical AI misalignment: a preliminary study	May 22, 2025	Red Teaming	—Unverified
Towards Publicly Accountable Frontier LLMs: Building an External Scrutiny Ecosystem under the ASPIRE Framework	Nov 15, 2023	Red Teaming	—Unverified
Towards Red Teaming in Multimodal and Multilingual Translation	Jan 29, 2024	Machine TranslationRed Teaming	—Unverified
Towards Secure MLOps: Surveying Attacks, Mitigation Strategies, and Research Challenges	May 30, 2025	Red Teaming	—Unverified
Understanding and Mitigating Risks of Generative AI in Financial Services	Apr 25, 2025	FairnessRed Teaming	—Unverified
VLFeedback: A Large-Scale AI Feedback Dataset for Large Vision-Language Models Alignment	Oct 12, 2024	DiversityHallucination	—Unverified
When Testing AI Tests Us: Safeguarding Mental Health on the Digital Frontlines	Apr 29, 2025	Red Teaming	—Unverified
Soft Prompts for Evaluation: Measuring Conditional Distance of Capabilities	May 20, 2025	Red Teaming	CodeCode Available
SeqAR: Jailbreak LLMs with Sequential Auto-Generated Characters	Jul 2, 2024	Red TeamingSafety Alignment	CodeCode Available
RedRFT: A Light-Weight Benchmark for Reinforcement Fine-Tuning-Based Red Teaming	Jun 4, 2025	Red Teaming	CodeCode Available
RedDebate: Safer Responses through Multi-Agent Red Teaming Debates	Jun 4, 2025	Red Teaming	CodeCode Available
Sowing the Wind, Reaping the Whirlwind: The Impact of Editing Language Models	Jan 19, 2024	Model EditingRed Teaming	CodeCode Available
What Is Wrong with My Model? Identifying Systematic Problems with Semantic Data Slicing	Sep 14, 2024	Red Teaming	CodeCode Available
Advancing Adversarial Suffix Transfer Learning on Aligned Large Language Models	Aug 27, 2024	Red TeamingTransfer Learning	CodeCode Available
Red Teaming for Large Language Models At Scale: Tackling Hallucinations on Mathematics Tasks	Dec 30, 2023	Red Teaming	CodeCode Available
Stealthy and Persistent Unalignment on Large Language Models via Backdoor Injections	Nov 15, 2023	Red Teaming	CodeCode Available
Red Teaming GPT-4V: Are GPT-4V Safe Against Uni/Multi-Modal Jailbreak Attacks?	Apr 4, 2024	Red Teaming	CodeCode Available
RabakBench: Scaling Human Annotations to Construct Localized Multilingual Safety Benchmarks for Low-Resource Languages	Jul 8, 2025	Red Teaming	CodeCode Available
Red Teaming Language Models for Processing Contradictory Dialogues	May 16, 2024	Red Teamingvalid	CodeCode Available
Overriding Safety protections of Open-source Models	Sep 28, 2024	Red TeamingSafety Alignment	CodeCode Available
No Offense Taken: Eliciting Offensiveness from Language Models	Oct 2, 2023	DiversityRed Teaming	CodeCode Available
Red Teaming with Mind Reading: White-Box Adversarial Policies Against RL Agents	Sep 5, 2022	Red Teamingreinforcement-learning	CodeCode Available
Look Before You Leap: Enhancing Attention and Vigilance Regarding Harmful Content with GuidelineLLM	Dec 10, 2024	Red Teaming	CodeCode Available
Steering Without Side Effects: Improving Post-Deployment Control of Language Models	Jun 21, 2024	Red TeamingTruthfulQA	CodeCode Available
Red-Teaming Segment Anything Model	Apr 2, 2024	Image Segmentationmodel	CodeCode Available
Bias patterns in the application of LLMs for clinical decision support: A comprehensive study	Apr 23, 2024	Decision MakingQuestion Answering	CodeCode Available
Capability-Based Scaling Laws for LLM Red-Teaming	May 26, 2025	MMLUPrompt Engineering	CodeCode Available
TRIDENT: Enhancing Large Language Model Safety with Tri-Dimensional Diversified Red-Teaming Data Synthesis	May 30, 2025	DiversityLanguage Modeling	CodeCode Available
BitBypass: A New Direction in Jailbreaking Aligned Large Language Models with Bitstream Camouflage	Jun 3, 2025	Prompt EngineeringRed Teaming	CodeCode Available
Distract Large Language Models for Automatic Jailbreak Attack	Mar 13, 2024	Red Teaming	CodeCode Available
Kov: Transferable and Naturalistic Black-Box LLM Attacks using Markov Decision Processes and Tree Search	Aug 11, 2024	Red Teaming	CodeCode Available
Benign Samples Matter! Fine-tuning On Outlier Benign Samples Severely Breaks Safety	May 11, 2025	Outlier DetectionRed Teaming	CodeCode Available
InfoPattern: Unveiling Information Propagation Patterns in Social Media	Nov 27, 2023	Red TeamingStance Detection	CodeCode Available
RICoTA: Red-teaming of In-the-wild Conversation with Test Attempts	Jan 29, 2025	ChatbotRed Teaming	CodeCode Available
Gradient-Based Language Model Red Teaming	Jan 30, 2024	Language ModelingLanguage Modelling	CodeCode Available
Audio Is the Achilles' Heel: Red Teaming Audio Large Multimodal Models	Oct 31, 2024	Red TeamingSafety Alignment	CodeCode Available
SAGE: A Generic Framework for LLM Safety Evaluation	Apr 28, 2025	Red TeamingSafety Alignment	CodeCode Available
An Auditing Test To Detect Behavioral Shift in Language Models	Oct 25, 2024	BenchmarkingChange Detection	CodeCode Available
ASTPrompter: Weakly Supervised Automated Language Model Red-Teaming to Identify Low-Perplexity Toxic Prompts	Jul 12, 2024	Language ModelingLanguage Modelling	CodeCode Available
ASSERT: Automated Safety Scenario Red Teaming for Evaluating the Robustness of Large Language Models	Oct 14, 2023	Red Teaming	CodeCode Available
The Structural Safety Generalization Problem	Apr 13, 2025	Red Teaming	CodeCode Available
BiasJailbreak:Analyzing Ethical Biases and Jailbreak Vulnerabilities in Large Language Models	Oct 17, 2024	Red TeamingSafety Alignment	CodeCode Available
Automated Progressive Red Teaming	Jul 4, 2024	Active LearningRed Teaming	CodeCode Available
Aligners: Decoupling LLMs and Alignment	Mar 7, 2024	Instruction FollowingRed Teaming	CodeCode Available
We Should Identify and Mitigate Third-Party Safety Risks in MCP-Powered Agent Systems	Jun 16, 2025	PositionRed Teaming	CodeCode Available
Code-Switching Red-Teaming: LLM Evaluation for Safety and Multilingual Understanding	Jun 17, 2024	16kLanguage Modelling	CodeCode Available

Show:10 25 50

← PrevPage 5 of 6Next →

Benchmark Results

#	Model	Metric	Claimed	Verified	Status
1	SUDO	Attack Success Rate	41	—	Unverified