Red Teaming

Papers

Recently Added Most Hyped Most Active Needs Verification Most Verified

Showing 201–250 of 251 papers

Title	Date	Tasks	Status
CulturalTeaming: AI-Assisted Interactive Red-Teaming for Challenging LLMs' (Lack of) Multicultural Knowledge	Apr 10, 2024	Red Teaming	—Unverified
Red Teaming GPT-4V: Are GPT-4V Safe Against Uni/Multi-Modal Jailbreak Attacks?	Apr 4, 2024	Red Teaming	CodeCode Available
Red-Teaming Segment Anything Model	Apr 2, 2024	Image Segmentationmodel	CodeCode Available
Aurora-M: Open Source Continual Pre-training for Multilingual Language and Code	Mar 30, 2024	Continual PretrainingLanguage Modelling	—Unverified
IterAlign: Iterative Constitutional Alignment of Large Language Models	Mar 27, 2024	Red Teaming	—Unverified
HRLAIF: Improvements in Helpfulness and Harmlessness in Open-domain Reinforcement Learning From AI Feedback	Mar 13, 2024	Language ModellingLarge Language Model	—Unverified
Distract Large Language Models for Automatic Jailbreak Attack	Mar 13, 2024	Red Teaming	CodeCode Available
Red Teaming Models for Hyperspectral Image Analysis Using Explainable AI	Mar 12, 2024	Hyperspectral image analysisHYPERVIEW Challenge	—Unverified
A Safe Harbor for AI Evaluation and Red Teaming	Mar 7, 2024	Red Teaming	—Unverified
Aligners: Decoupling LLMs and Alignment	Mar 7, 2024	Instruction FollowingRed Teaming	CodeCode Available
AttackGNN: Red-Teaming GNNs in Hardware Security Using Reinforcement Learning	Feb 21, 2024	Graph Neural NetworkRed Teaming	—Unverified
Investigating Bias Representations in Llama 2 Chat via Activation Steering	Feb 1, 2024	Decision MakingRed Teaming	—Unverified
Gradient-Based Language Model Red Teaming	Jan 30, 2024	Language ModelingLanguage Modelling	CodeCode Available
Red-Teaming for Generative AI: Silver Bullet or Security Theater?	Jan 29, 2024	Red Teaming	—Unverified
Towards Red Teaming in Multimodal and Multilingual Translation	Jan 29, 2024	Machine TranslationRed Teaming	—Unverified
Red Teaming Visual Language Models	Jan 23, 2024	FairnessRed Teaming	—Unverified
Digital cloning of online social networks for language-sensitive agent-based modeling of misinformation spread	Jan 23, 2024	MisinformationRed Teaming	—Unverified
Sowing the Wind, Reaping the Whirlwind: The Impact of Editing Language Models	Jan 19, 2024	Model EditingRed Teaming	CodeCode Available
Red Teaming for Large Language Models At Scale: Tackling Hallucinations on Mathematics Tasks	Dec 30, 2023	Red Teaming	CodeCode Available
A Red Teaming Framework for Securing AI in Maritime Autonomous Systems	Dec 8, 2023	Red Teaming	—Unverified
DeceptPrompt: Exploiting LLM-driven Code Generation via Adversarial Natural Language Instructions	Dec 7, 2023	Code GenerationRed Teaming	—Unverified
InfoPattern: Unveiling Information Propagation Patterns in Social Media	Nov 27, 2023	Red TeamingStance Detection	CodeCode Available
JAB: Joint Adversarial Prompting and Belief Augmentation	Nov 16, 2023	Red Teaming	—Unverified
RLHFPoison: Reward Poisoning Attack for Reinforcement Learning with Human Feedback in Large Language Models	Nov 16, 2023	Backdoor AttackData Poisoning	—Unverified
Towards Publicly Accountable Frontier LLMs: Building an External Scrutiny Ecosystem under the ASPIRE Framework	Nov 15, 2023	Red Teaming	—Unverified
Jailbreaking GPT-4V via Self-Adversarial Attacks with System Prompts	Nov 15, 2023	Adversarial AttackRed Teaming	—Unverified
Stealthy and Persistent Unalignment on Large Language Models via Backdoor Injections	Nov 15, 2023	Red Teaming	CodeCode Available
AART: AI-Assisted Red-Teaming with Diverse Data Generation for New LLM-powered Applications	Nov 14, 2023	DiversityRed Teaming	—Unverified
MART: Improving LLM Safety with Multi-round Automatic Red-Teaming	Nov 13, 2023	Instruction FollowingRed Teaming	—Unverified
Summon a Demon and Bind it: A Grounded Theory of LLM Red Teaming	Nov 10, 2023	Red Teaming	—Unverified
LoRA Fine-tuning Efficiently Undoes Safety Training in Llama 2-Chat 70B	Oct 31, 2023	GPURed Teaming	—Unverified
Learning from Red Teaming: Gender Bias Provocation and Mitigation in Large Language Models	Oct 17, 2023	In-Context LearningRed Teaming	—Unverified
ASSERT: Automated Safety Scenario Red Teaming for Evaluating the Robustness of Large Language Models	Oct 14, 2023	Red Teaming	CodeCode Available
Low-Resource Languages Jailbreak GPT-4	Oct 3, 2023	Red Teaming	—Unverified
Can Language Models be Instructed to Protect Personal Information?	Oct 3, 2023	Adversarial RobustnessRed Teaming	—Unverified
No Offense Taken: Eliciting Offensiveness from Language Models	Oct 2, 2023	DiversityRed Teaming	CodeCode Available
Red Teaming Generative AI/NLP, the BB84 quantum cryptography protocol and the NIST-approved Quantum-Resistant Cryptographic Algorithms	Sep 17, 2023	Red Teaming	—Unverified
The Promise and Peril of Artificial Intelligence -- Violet Teaming Offers a Balanced Path Forward	Aug 28, 2023	EthicsPhilosophy	—Unverified
FLIRT: Feedback Loop In-context Red Teaming	Aug 8, 2023	In-Context LearningRed Teaming	—Unverified
Model Card and Evaluations for Claude Models	Jul 11, 2023	Arithmetic ReasoningBug fixing	—Unverified
Seeing Seeds Beyond Weeds: Green Teaming Generative AI for Beneficial Uses	May 30, 2023	Red Teaming	—Unverified
Personalisation within bounds: A risk taxonomy and policy framework for the alignment of large language models with personalised feedback	Mar 9, 2023	Red Teaming	—Unverified
Red teaming ChatGPT via Jailbreaking: Bias, Robustness, Reliability and Toxicity	Jan 30, 2023	EthicsLanguage Modelling	—Unverified
Can Large Language Models Change User Preference Adversarially?	Jan 5, 2023	Red Teaming	—Unverified
Red-Teaming the Stable Diffusion Safety Filter	Oct 3, 2022	Image GenerationRed Teaming	—Unverified
Red Teaming with Mind Reading: White-Box Adversarial Policies Against RL Agents	Sep 5, 2022	Red Teamingreinforcement-learning	CodeCode Available
CTI4AI: Threat Intelligence Generation and Sharing after Red Teaming AI Models	Aug 16, 2022	Red Teaming	—Unverified
Automating Privilege Escalation with Deep Reinforcement Learning	Oct 4, 2021	BIG-bench Machine LearningDeep Reinforcement Learning	—Unverified
A Multi-Disciplinary Review of Knowledge Acquisition Methods: From Human to Autonomous Eliciting Agents	Feb 27, 2018	General ClassificationRed Teaming	—Unverified
Computational Red Teaming in a Sudoku Solving Context: Neural Network Based Skill Representation and Acquisition	Feb 27, 2018	Red Teaming	—Unverified

Show:10 25 50

← PrevPage 5 of 6Next →

Benchmark Results

#	Model	Metric	Claimed	Verified	Status
1	SUDO	Attack Success Rate	41	—	Unverified