Adversarial Attack

An Adversarial Attack is a technique to find a perturbation that changes the prediction of a machine learning model. The perturbation can be very small and imperceptible to human eyes.

Source: Recurrent Attention Model with Log-Polar Mapping is Robust against Adversarial Attacks

Papers

Recently Added Most Hyped Most Active Needs Verification Most Verified

Showing 1–50 of 1808 papers

Title	Date	Tasks	Status	Hype
Robust Multivariate Time-Series Forecasting: Adversarial Attacks and Defense Mechanisms	Jul 19, 2022	Adversarial AttackMultivariate Time Series Forecasting	CodeCode Available	5
Universal and Transferable Adversarial Attacks on Aligned Language Models	Jul 27, 2023	Adversarial AttackIngenuity	CodeCode Available	4
Adversarial Attacks against Closed-Source MLLMs via Feature Optimal Alignment	May 27, 2025	Adversarial AttackClustering	CodeCode Available	2
SAeUron: Interpretable Concept Unlearning in Diffusion Models with Sparse Autoencoders	Jan 29, 2025	Adversarial AttackDenoising	CodeCode Available	2
Adversarial Attacks and Defenses on Text-to-Image Diffusion Models: A Survey	Jul 10, 2024	Adversarial AttackImage Generation	CodeCode Available	2
On Discrete Prompt Optimization for Diffusion Models	Jun 27, 2024	Adversarial AttackPrompt Engineering	CodeCode Available	2
RWKU: Benchmarking Real-World Knowledge Unlearning for Large Language Models	Jun 16, 2024	Adversarial AttackBenchmarking	CodeCode Available	2
DiffAM: Diffusion-based Adversarial Makeup Transfer for Facial Privacy Protection	May 16, 2024	Adversarial AttackFace Recognition	CodeCode Available	2
Humanizing Machine-Generated Content: Evading AI-Text Detection through Adversarial Attack	Apr 2, 2024	Adversarial AttackText Detection	CodeCode Available	2
Physical 3D Adversarial Attacks against Monocular Depth Estimation in Autonomous Driving	Mar 26, 2024	Adversarial AttackAutonomous Driving	CodeCode Available	2
One Prompt Word is Enough to Boost Adversarial Robustness for Pre-trained Vision-Language Models	Mar 4, 2024	Adversarial AttackAdversarial Robustness	CodeCode Available	2
Fast Adversarial Attacks on Language Models In One GPU Minute	Feb 23, 2024	Adversarial AttackComputational Efficiency	CodeCode Available	2
L-AutoDA: Leveraging Large Language Models for Automated Decision-based Adversarial Attacks	Jan 27, 2024	Adversarial AttackComputational Efficiency	CodeCode Available	2
Diffusion Models for Imperceptible and Transferable Adversarial Attack	May 14, 2023	Adversarial Attack	CodeCode Available	2
Ignore Previous Prompt: Attack Techniques For Language Models	Nov 17, 2022	Adversarial AttackAdversarial Text	CodeCode Available	2
Efficient Neural Network Analysis with Sum-of-Infeasibilities	Mar 19, 2022	Adversarial AttackEfficient Neural Network	CodeCode Available	2
Fast Minimum-norm Adversarial Attacks through Adaptive Norm Constraints	Feb 25, 2021	Adversarial AttackAdversarial Robustness	CodeCode Available	2
Attacking and Defending Machine Learning Applications of Public Cloud	Jul 27, 2020	Adversarial AttackBIG-bench Machine Learning	CodeCode Available	2
Backdoor Learning: A Survey	Jul 17, 2020	Adversarial AttackBackdoor Attack	CodeCode Available	2
TextAttack: A Framework for Adversarial Attacks, Data Augmentation, and Adversarial Training in NLP	Apr 29, 2020	Adversarial AttackAdversarial Text	CodeCode Available	2
BAE: BERT-based Adversarial Examples for Text Classification	Apr 4, 2020	Adversarial AttackAdversarial Text	CodeCode Available	2
Adversarial Attacks and Defenses on Graphs: A Review, A Tool and Empirical Studies	Mar 2, 2020	Adversarial Attack	CodeCode Available	2
A Little Fog for a Large Turn	Jan 16, 2020	Adversarial AttackAutonomous Navigation	CodeCode Available	2
Adversarial Attacks and Defenses in Images, Graphs and Text: A Review	Sep 17, 2019	Adversarial Attack	CodeCode Available	2
Foolbox: A Python toolbox to benchmark the robustness of machine learning models	Jul 13, 2017	Adversarial AttackBIG-bench Machine Learning	CodeCode Available	2
ScoreAdv: Score-based Targeted Generation of Natural Adversarial Examples via Diffusion Models	Jul 8, 2025	Adversarial AttackDenoising	CodeCode Available	1
Adversarial Attacks and Detection in Visual Place Recognition for Safer Robot Navigation	Jun 19, 2025	Adversarial AttackRobot Navigation	CodeCode Available	1
Learning Safety Constraints for Large Language Models	May 30, 2025	Adversarial Attack	CodeCode Available	1
3D Gaussian Splat Vulnerabilities	May 30, 2025	3DGSAdversarial Attack	CodeCode Available	1
SafeScientist: Toward Risk-Aware Scientific Discoveries by LLM Agents	May 29, 2025	Adversarial AttackLarge Language Model	CodeCode Available	1
Audio Jailbreak Attacks: Exposing Vulnerabilities in SpeechGPT in a White-Box Framework	May 24, 2025	Adversarial AttackSpeech Tokenization	CodeCode Available	1
GenoArmory: A Unified Evaluation Framework for Adversarial Attacks on Genomic Foundation Models	May 16, 2025	Adversarial AttackAdversarial Defense	CodeCode Available	1
Fast and Low-Cost Genomic Foundation Models via Outlier Removal	May 1, 2025	Adversarial AttackAdversarial Robustness	CodeCode Available	1
sudo rm -rf agentic_security	Mar 26, 2025	Adversarial AttackAI and Safety	CodeCode Available	1
CyberLLMInstruct: A New Dataset for Analysing Safety of Fine-Tuned LLMs Using Cyber Security Data	Mar 12, 2025	Adversarial AttackMalware Analysis	CodeCode Available	1
Data-free Universal Adversarial Perturbation with Pseudo-semantic Prior	Feb 28, 2025	Adversarial Attack	CodeCode Available	1
Iron Sharpens Iron: Defending Against Attacks in Machine-Generated Text Detection with Adversarial Training	Feb 18, 2025	Adversarial AttackText Detection	CodeCode Available	1
To Think or Not to Think: Exploring the Unthinking Vulnerability in Large Reasoning Models	Feb 16, 2025	Adversarial AttackBackdoor Attack	CodeCode Available	1
HateBench: Benchmarking Hate Speech Detectors on LLM-Generated Content and Hate Campaigns	Jan 28, 2025	Adversarial AttackBenchmarking	CodeCode Available	1
Physics-Based Adversarial Attack on Near-Infrared Human Detector for Nighttime Surveillance Camera Systems	Dec 18, 2024	Adversarial Attack	CodeCode Available	1
Human-in-the-Loop Generation of Adversarial Texts: A Case Study on Tibetan Script	Dec 17, 2024	Adversarial AttackAdversarial Robustness	CodeCode Available	1
A2RNet: Adversarial Attack Resilient Network for Robust Infrared and Visible Image Fusion	Dec 13, 2024	Adversarial AttackInfrared And Visible Image Fusion	CodeCode Available	1
Adversarial Vulnerabilities in Large Language Models for Time Series Forecasting	Dec 11, 2024	Adversarial AttackTime Series	CodeCode Available	1
Exploiting the Index Gradients for Optimization-Based Jailbreaking on Large Language Models	Dec 11, 2024	Adversarial Attack	CodeCode Available	1
Hiding Faces in Plain Sight: Defending DeepFakes by Disrupting Face Detection	Dec 2, 2024	Adversarial AttackFace Detection	CodeCode Available	1
Semantic-Aligned Adversarial Evolution Triangle for High-Transferability Vision-Language Attack	Nov 4, 2024	Adversarial AttackDiversity	CodeCode Available	1
Transferable Adversarial Attacks on SAM and Its Downstream Models	Oct 26, 2024	Adversarial Attack	CodeCode Available	1
Malacopula: adversarial automatic speaker verification attacks using a neural-based generalised Hammerstein model	Aug 17, 2024	Adversarial AttackSpeaker Verification	CodeCode Available	1
Ensemble everything everywhere: Multi-scale aggregation for adversarial robustness	Aug 8, 2024	Adversarial AttackAdversarial Robustness	CodeCode Available	1
Guardians of Image Quality: Benchmarking Defenses Against Adversarial Attacks on Image Quality Metrics	Aug 2, 2024	Adversarial AttackAdversarial Purification	CodeCode Available	1

Show:10 25 50

← PrevPage 1 of 37Next →

All datasets CIFAR-10 CIFAR-100

Benchmark Results

#	Model	Metric	Claimed	Verified	Status
1	Xu et al.	Attack: PGD20	78.68	—	Unverified
2	3-ensemble of multi-resolution self-ensembles	Attack: AutoAttack	78.13	—	Unverified
3	TRADES-ANCRA/ResNet18	Attack: AutoAttack	59.7	—	Unverified
4	AdvTraining [madry2018]	Attack: PGD20	48.44	—	Unverified
5	TRADES [zhang2019b]	Attack: PGD20	45.9	—	Unverified
6	XU-Net	Robust Accuracy	1	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	3-ensemble of multi-resolution self-ensembles	Attack: AutoAttack	51.28	—	Unverified
2	multi-resolution self-ensembles	Attack: AutoAttack	47.85	—	Unverified