Safety Alignment

Papers

Recently Added Most Hyped Most Active Needs Verification Most Verified

Showing 226–250 of 288 papers

Title	Date	Tasks	Status	Hype
SPA-VL: A Comprehensive Safety Preference Alignment Dataset for Vision Language Model	Jun 17, 2024	Language ModelingLanguage Modelling	CodeCode Available	1
Emerging Safety Attack and Defense in Federated Instruction Tuning of Large Language Models	Jun 15, 2024	Federated LearningLanguage Modelling	—Unverified	0
Mimicking User Data: On Mitigating Fine-Tuning Risks in Closed Large Language Models	Jun 12, 2024	Instruction FollowingSafety Alignment	—Unverified	0
Safety Alignment Should Be Made More Than Just a Few Tokens Deep	Jun 10, 2024	Safety Alignment	CodeCode Available	2
How Alignment and Jailbreak Work: Explain LLM Safety through Intermediate Hidden States	Jun 9, 2024	Safety Alignment	CodeCode Available	2
SelfDefend: LLMs Can Defend Themselves against Jailbreaking in a Practical Manner	Jun 8, 2024	Adversarial AttackLLM Jailbreak	—Unverified	0
On the Intrinsic Self-Correction Capability of LLMs: Uncertainty and Latent Concept	Jun 4, 2024	Question AnsweringSafety Alignment	—Unverified	0
OR-Bench: An Over-Refusal Benchmark for Large Language Models	May 31, 2024	Safety Alignment	CodeCode Available	1
Enhancing Jailbreak Attack Against Large Language Models through Silent Tokens	May 31, 2024	Safety Alignment	—Unverified	0
One-Shot Safety Alignment for Large Language Models via Optimal Dualization	May 29, 2024	Safety Alignment	CodeCode Available	0
Lisa: Lazy Safety Alignment for Large Language Models against Harmful Fine-tuning Attack	May 28, 2024	Safety Alignment	CodeCode Available	1
Cross-Modal Safety Alignment: Is textual unlearning all you need?	May 27, 2024	AllSafety Alignment	—Unverified	0
Navigating the Safety Landscape: Measuring Risks in Finetuning Large Language Models	May 27, 2024	Safety Alignment	CodeCode Available	1
No Two Devils Alike: Unveiling Distinct Mechanisms of Fine-tuning Attacks	May 25, 2024	Safety Alignment	—Unverified	0
Robustifying Safety-Aligned Large Language Models through Clean Data Curation	May 24, 2024	Safety Alignment	—Unverified	0
Towards Comprehensive Post Safety Alignment of Large Language Models via Safety Patching	May 22, 2024	Safety Alignment	—Unverified	0
WordGame: Efficient & Effective LLM Jailbreak via Simultaneous Obfuscation in Query and Response	May 22, 2024	LLM JailbreakSafety Alignment	—Unverified	0
Safety Alignment for Vision Language Models	May 22, 2024	Red TeamingSafety Alignment	—Unverified	0
PARDEN, Can You Repeat That? Defending against Jailbreaks via Repetition	May 13, 2024	Safety Alignment	CodeCode Available	1
Don't Say No: Jailbreaking LLM by Suppressing Refusal	Apr 25, 2024	Natural Language InferenceSafety Alignment	CodeCode Available	1
Uncovering Safety Risks of Large Language Models through Concept Activation Vector	Apr 18, 2024	Safety Alignment	CodeCode Available	1
AmpleGCG: Learning a Universal and Transferable Generative Model of Adversarial Suffixes for Jailbreaking Both Open and Closed LLMs	Apr 11, 2024	Safety Alignment	CodeCode Available	2
Eraser: Jailbreaking Defense in Large Language Models via Unlearning Harmful Knowledge	Apr 8, 2024	General KnowledgeSafety Alignment	CodeCode Available	0
CantTalkAboutThis: Aligning Language Models to Stay on Topic in Dialogues	Apr 4, 2024	ChatbotInstruction Following	—Unverified	0
Learn to Disguise: Avoid Refusal Responses in LLM's Defense via a Multi-agent Attacker-Disguiser Game	Apr 3, 2024	Prompt EngineeringSafety Alignment	—Unverified	0

Show:10 25 50

← PrevPage 10 of 12Next →

No leaderboard results yet.