Safety Alignment

Papers

Recently Added Most Hyped Most Active Needs Verification Most Verified

Showing 151–175 of 288 papers

Title	Date	Tasks	Status
X-Teaming: Multi-Turn Jailbreaks and Defenses with Adaptive Multi-Agents	Apr 15, 2025	DiversityRed Teaming	—Unverified
LLM Can be a Dangerous Persuader: Empirical Study of Persuasion Safety in Large Language Models	Apr 14, 2025	Persuasion StrategiesSafety Alignment	—Unverified
RealSafe-R1: Safety-Aligned DeepSeek-R1 without Compromising Reasoning Capability	Apr 14, 2025	Safety Alignment	—Unverified
Do We Really Need Curated Malicious Data for Safety Alignment in Multi-modal Large Language Models?	Apr 14, 2025	Safety Alignment	—Unverified
SafeMLRM: Demystifying Safety in Multi-modal Large Reasoning Models	Apr 9, 2025	Safety Alignment	—Unverified
ERPO: Advancing Safety Alignment via Ex-Ante Reasoning Preference Optimization	Apr 3, 2025	Safety Alignment	—Unverified
More is Less: The Pitfalls of Multi-Model Synthetic Preference Data in DPO Safety Alignment	Apr 3, 2025	ARCHellaSwag	—Unverified
STAR-1: Safer Alignment of Reasoning LLMs with 1K Data	Apr 2, 2025	DiversitySafety Alignment	—Unverified
Effectively Controlling Reasoning Models through Thinking Intervention	Mar 31, 2025	Instruction FollowingSafety Alignment	—Unverified
Safe RLHF-V: Safe Reinforcement Learning from Human Feedback in Multimodal Large Language Models	Mar 22, 2025	MisinformationSafe Reinforcement Learning	—Unverified
Align in Depth: Defending Jailbreak Attacks via Progressive Answer Detoxification	Mar 14, 2025	Safety Alignment	—Unverified
Representation-based Reward Modeling for Efficient Safety Alignment of Large Language Model	Mar 13, 2025	Language ModelingLanguage Modelling	—Unverified
JBFuzz: Jailbreaking LLMs Efficiently and Effectively Using Fuzzing	Mar 12, 2025	Red TeamingSafety Alignment	—Unverified
Backtracking for Safety	Mar 11, 2025	Safety Alignment	—Unverified
Utilizing Jailbreak Probability to Attack and Safeguard Multimodal LLMs	Mar 10, 2025	Binary ClassificationSafety Alignment	—Unverified
SafeArena: Evaluating the Safety of Autonomous Web Agents	Mar 6, 2025	MisinformationSafety Alignment	—Unverified
Safety is Not Only About Refusal: Reasoning-Enhanced Fine-tuning for Interpretable LLM Safety	Mar 6, 2025	Decision MakingSafety Alignment	—Unverified
SafeVLA: Towards Safety Alignment of Vision-Language-Action Model via Constrained Learning	Mar 5, 2025	Safe Reinforcement LearningSafety Alignment	—Unverified
LLM-Safety Evaluations Lack Robustness	Mar 4, 2025	Red TeamingResponse Generation	—Unverified
Llama-3.1-Sherkala-8B-Chat: An Open Large Language Model for Kazakh	Mar 3, 2025	Language ModelingLanguage Modelling	—Unverified
FC-Attack: Jailbreaking Multimodal Large Language Models via Auto-Generated Flowcharts	Feb 28, 2025	Safety Alignment	—Unverified
The Geometry of Refusal in Large Language Models: Concept Cones and Representational Independence	Feb 24, 2025	Safety Alignment	—Unverified
Attention Eclipse: Manipulating Attention to Bypass LLM Safety-Alignment	Feb 21, 2025	Safety Alignment	—Unverified
C3AI: Crafting and Evaluating Constitutions for Constitutional AI	Feb 21, 2025	Safety Alignment	—Unverified
Exploiting Prefix-Tree in Structured Output Interfaces for Enhancing Jailbreak Attacking	Feb 19, 2025	Prompt EngineeringSafety Alignment	CodeCode Available

Show:10 25 50

← PrevPage 7 of 12Next →

No leaderboard results yet.