Dataset Distillation

Dataset distillation is the task of synthesizing a small dataset such that models trained on it achieve high performance on the original large dataset. A dataset distillation algorithm takes as input a large real dataset to be distilled (training set), and outputs a small synthetic distilled dataset, which is evaluated via testing models trained on this distilled dataset on a separate real dataset (validation/test set). A good small distilled dataset is not only useful in dataset understanding, but has various applications (e.g., continual learning, privacy, neural architecture search, etc.).

Papers

Recently Added Most Hyped Most Active Needs Verification Most Verified

Showing 176–200 of 216 papers

Title	Date	Tasks	Status
Exploring the Impact of Dataset Bias on Dataset Distillation	Mar 24, 2024	Dataset Distillation	CodeCode Available
Dataset Distillation for Offline Reinforcement Learning	Jul 29, 2024	Dataset Distillationreinforcement-learning	CodeCode Available
Exploring Multilingual Text Data Distillation	Aug 9, 2023	Dataset DistillationFairness	CodeCode Available
Exploring Generalized Gait Recognition: Reducing Redundancy and Noise within Indoor and Outdoor Datasets	May 21, 2025	Dataset DistillationGait Recognition	CodeCode Available
TD3: Tucker Decomposition Based Dataset Distillation Method for Sequential Recommendation	Feb 5, 2025	Dataset DistillationMeta-Learning	CodeCode Available
Dataset Distillers Are Good Label Denoisers In the Wild	Nov 18, 2024	Dataset DistillationDenoising	CodeCode Available
Teddy: Efficient Large-Scale Dataset Distillation via Taylor-Approximated Matching	Oct 10, 2024	Dataset Distillation	CodeCode Available
Dataset distillation for memorized data: Soft labels can leak held-out teacher knowledge	Jun 17, 2025	Dataset DistillationMemorization	CodeCode Available
BEARD: Benchmarking the Adversarial Robustness for Dataset Distillation	Nov 14, 2024	Adversarial AttackAdversarial Robustness	CodeCode Available
Enhancing Dataset Distillation via Non-Critical Region Refinement	Mar 24, 2025	Dataset DistillationTransfer Learning	CodeCode Available
ATOM: Attention Mixer for Efficient Dataset Distillation	May 2, 2024	Dataset DistillationNeural Architecture Search	CodeCode Available
Enhancing Dataset Distillation via Label Inconsistency Elimination and Learning Pattern Refinement	Oct 17, 2024	Dataset Distillation	CodeCode Available
Dataset Distillation with Infinitely Wide Convolutional Networks	Jul 27, 2021	Dataset Distillationimage-classification	CodeCode Available
AST: Effective Dataset Distillation through Alignment with Smooth and High-Quality Expert Trajectories	Oct 16, 2023	Dataset Distillation	CodeCode Available
Dataset Distillation via Knowledge Distillation: Towards Efficient Self-Supervised Pre-Training of Deep Networks	Oct 3, 2024	Dataset DistillationKnowledge Distillation	CodeCode Available
Does Training with Synthetic Data Truly Protect Privacy?	Feb 18, 2025	Data-free Knowledge DistillationDataset Distillation	CodeCode Available
Risk of Text Backdoor Attacks Under Dataset Distillation	Oct 17, 2024	Backdoor AttackDataset Distillation	CodeCode Available
Diversity-Driven Synthesis: Enhancing Dataset Distillation through Directed Weight Adjustment	Sep 26, 2024	Dataset DistillationDiversity	CodeCode Available
Towards Adversarially Robust Dataset Distillation by Curvature Regularization	Mar 15, 2024	Adversarial RobustnessDataset Distillation	CodeCode Available
Neural Spectral Decomposition for Dataset Distillation	Aug 29, 2024	Dataset Distillation	CodeCode Available
Distributional Dataset Distillation with Subtask Decomposition	Mar 1, 2024	Dataset DistillationDecoder	CodeCode Available
Going Beyond Feature Similarity: Effective Dataset Distillation based on Class-Aware Conditional Mutual Information	Dec 13, 2024	Dataset Distillation	CodeCode Available
Distill the Best, Ignore the Rest: Improving Dataset Distillation with Loss-Value-Based Pruning	Nov 18, 2024	Dataset Distillation	CodeCode Available
UniDetox: Universal Detoxification of Large Language Models via Dataset Distillation	Apr 29, 2025	Dataset DistillationLanguage Modeling	CodeCode Available
Dataset Distillation via Adversarial Prediction Matching	Dec 14, 2023	Dataset DistillationGPU	CodeCode Available

Show:10 25 50

← PrevPage 8 of 9Next →

No leaderboard results yet.