Safety Alignment

Papers

Recently Added Most Hyped Most Active Needs Verification Most Verified

Showing 201–225 of 288 papers

Title	Date	Tasks	Status	Hype
EnJa: Ensemble Jailbreak on Large Language Models	Aug 7, 2024	Safety Alignment	—Unverified	0
Cross-modality Information Check for Detecting Jailbreaking in Multimodal Large Language Models	Jul 31, 2024	Safety Alignment	CodeCode Available	1
Can Editing LLMs Inject Harm?	Jul 29, 2024	FairnessGeneral Knowledge	CodeCode Available	1
Can Large Language Models Automatically Jailbreak GPT-4V?	Jul 23, 2024	Face RecognitionIn-Context Learning	—Unverified	0
Course-Correction: Safety Alignment Using Synthetic Preferences	Jul 23, 2024	Safety Alignment	CodeCode Available	1
Failures to Find Transferable Image Jailbreaks Between Vision-Language Models	Jul 21, 2024	Instruction FollowingLanguage Modelling	—Unverified	0
The Better Angels of Machine Personality: How Personality Relates to LLM Safety	Jul 17, 2024	FairnessSafety Alignment	CodeCode Available	0
Multilingual Blending: LLM Safety Alignment Evaluation with Language Mixture	Jul 10, 2024	Safety Alignment	—Unverified	0
Jailbreak Attacks and Defenses Against Large Language Models: A Survey	Jul 5, 2024	Code CompletionQuestion Answering	—Unverified	0
Q-Adapter: Customizing Pre-trained LLMs to New Preferences with Forgetting Mitigation	Jul 4, 2024	Q-Learningreinforcement-learning	CodeCode Available	1
From Theft to Bomb-Making: The Ripple Effect of Unlearning in Defending Against Jailbreak Attacks	Jul 3, 2024	Safety Alignment	CodeCode Available	1
LoRA-Guard: Parameter-Efficient Guardrail Adaptation for Content Moderation of Large Language Models	Jul 3, 2024	Safety Alignment	—Unverified	0
SeqAR: Jailbreak LLMs with Sequential Auto-Generated Characters	Jul 2, 2024	Red TeamingSafety Alignment	CodeCode Available	0
SafeAligner: Safety Alignment against Jailbreak Attacks via Response Disparity Guidance	Jun 26, 2024	Safety Alignment	CodeCode Available	0
The Multilingual Alignment Prism: Aligning Global and Local Preferences to Reduce Harm	Jun 26, 2024	Cross-Lingual TransferRed Teaming	—Unverified	0
Adversarial Contrastive Decoding: Boosting Safety Alignment of Large Language Models via Opposite Prompt Optimization	Jun 24, 2024	Safety Alignment	—Unverified	0
Cross-Modality Safety Alignment	Jun 21, 2024	Safety Alignment	CodeCode Available	2
PKU-SafeRLHF: Towards Multi-Level Safety Alignment for LLMs with Human Preference	Jun 20, 2024	Question AnsweringSafety Alignment	—Unverified	0
Model Merging and Safety Alignment: One Bad Model Spoils the Bunch	Jun 20, 2024	modelSafety Alignment	—Unverified	0
SafeSora: Towards Safety Alignment of Text2Video Generation via a Human Preference Dataset	Jun 20, 2024	Safety AlignmentText-to-Video Generation	CodeCode Available	1
Finding Safety Neurons in Large Language Models	Jun 20, 2024	MisinformationRed Teaming	—Unverified	0
SafeInfer: Context Adaptive Decoding Time Safety Alignment for Large Language Models	Jun 18, 2024	Safety Alignment	CodeCode Available	1
Code-Switching Red-Teaming: LLM Evaluation for Safety and Multilingual Understanding	Jun 17, 2024	16kLanguage Modelling	CodeCode Available	0
ChatBug: A Common Vulnerability of Aligned LLMs Induced by Chat Templates	Jun 17, 2024	Instruction FollowingSafety Alignment	CodeCode Available	1
Safety Arithmetic: A Framework for Test-time Safety Alignment of Language Models by Steering Parameters and Activations	Jun 17, 2024	AI and SafetyQuestion Answering	CodeCode Available	1

Show:10 25 50

← PrevPage 9 of 12Next →

No leaderboard results yet.