Dataset Distillation

Dataset distillation is the task of synthesizing a small dataset such that models trained on it achieve high performance on the original large dataset. A dataset distillation algorithm takes as input a large real dataset to be distilled (training set), and outputs a small synthetic distilled dataset, which is evaluated via testing models trained on this distilled dataset on a separate real dataset (validation/test set). A good small distilled dataset is not only useful in dataset understanding, but has various applications (e.g., continual learning, privacy, neural architecture search, etc.).

Papers

Recently Added Most Hyped Most Active Needs Verification Most Verified

Showing 51–100 of 216 papers

Title	Date	Tasks	Status	Hype
Distill Gold from Massive Ores: Bi-level Data Pruning towards Efficient Dataset Distillation	May 28, 2023	Dataset Distillation	CodeCode Available	1
Generalizing Dataset Distillation via Deep Generative Prior	May 2, 2023	Dataset Distillation	CodeCode Available	1
DiM: Distilling Dataset into Generative Model	Mar 8, 2023	Dataset Distillationmodel	CodeCode Available	1
DREAM: Efficient Dataset Distillation by Representative Matching	Feb 28, 2023	Dataset DistillationDiversity	CodeCode Available	1
Dataset Distillation with Convexified Implicit Gradients	Feb 13, 2023	Dataset DistillationDataset Distillation - 1IPC	CodeCode Available	1
Backdoor Attacks Against Dataset Distillation	Jan 3, 2023	Backdoor AttackDataset Distillation	CodeCode Available	1
Minimizing the Accumulated Trajectory Error to Improve Dataset Distillation	Nov 20, 2022	Dataset DistillationDataset Distillation - 1IPC	CodeCode Available	1
Scaling Up Dataset Distillation to ImageNet-1K with Constant Memory	Nov 19, 2022	Dataset DistillationDataset Distillation - 1IPC	CodeCode Available	1
Dataset Factorization for Condensation	Nov 1, 2022	Dataset DistillationDiversity	CodeCode Available	1
Dataset Distillation via Factorization	Oct 30, 2022	Dataset DistillationHallucination	CodeCode Available	1
Efficient Dataset Distillation Using Random Feature Approximation	Oct 21, 2022	Dataset CondensationDataset Distillation	CodeCode Available	1
Federated Learning via Decentralized Dataset Distillation in Resource-Constrained Edge Environments	Aug 24, 2022	Dataset DistillationFederated Learning	CodeCode Available	1
Remember the Past: Distilling Datasets into Addressable Memories for Neural Networks	Jun 6, 2022	Continual LearningDataset Distillation	CodeCode Available	1
Flexible Dataset Distillation: Learn Labels Instead of Images	Jun 15, 2020	Dataset DistillationData Summarization	CodeCode Available	1
Soft-Label Dataset Distillation and Text Dataset Distillation	Oct 6, 2019	Dataset DistillationData Summarization	CodeCode Available	1
Dataset Distillation	Nov 27, 2018	Dataset Distillation	CodeCode Available	1
Information-Guided Diffusion Sampling for Dataset Distillation	Jul 7, 2025	Dataset Distillation	—Unverified	0
Task-Specific Generative Dataset Distillation with Difficulty-Guided Sampling	Jul 4, 2025	Dataset Distillation	—Unverified	0
FedWSIDD: Federated Whole Slide Image Classification via Dataset Distillation	Jun 18, 2025	ClassificationDataset Distillation	—Unverified	0
Dataset distillation for memorized data: Soft labels can leak held-out teacher knowledge	Jun 17, 2025	Dataset DistillationMemorization	CodeCode Available	0
Hyperbolic Dataset Distillation	May 30, 2025	Computational EfficiencyDataset Distillation	—Unverified	0
Diversity-Driven Generative Dataset Distillation Based on Diffusion Model with Self-Adaptive Memory	May 26, 2025	Dataset DistillationDiversity	—Unverified	0
Data-Distill-Net: A Data Distillation Approach Tailored for Reply-based Continual Learning	May 26, 2025	Continual LearningDataset Distillation	—Unverified	0
MGD^3: Mode-Guided Dataset Distillation using Diffusion Models	May 25, 2025	Dataset DistillationDiversity	—Unverified	0
CONCORD: Concept-Informed Diffusion for Dataset Distillation	May 23, 2025	Computational EfficiencyDataset Distillation	CodeCode Available	0
Contrastive Learning-Enhanced Trajectory Matching for Small-Scale Dataset Distillation	May 21, 2025	Contrastive LearningDataset Distillation	—Unverified	0
Exploring Generalized Gait Recognition: Reducing Redundancy and Noise within Indoor and Outdoor Datasets	May 21, 2025	Dataset DistillationGait Recognition	CodeCode Available	0
Beyond Modality Collapse: Representations Blending for Multimodal Dataset Distillation	May 16, 2025	cross-modal alignmentDataset Distillation	—Unverified	0
Leveraging Multi-Modal Information to Enhance Dataset Distillation	May 13, 2025	Dataset DistillationObject	—Unverified	0
Dataset Distillation with Probabilistic Latent Features	May 10, 2025	Dataset Distillation	—Unverified	0
Video Dataset Condensation with Diffusion Models	May 10, 2025	Computational EfficiencyDataset Condensation	—Unverified	0
UniDetox: Universal Detoxification of Large Language Models via Dataset Distillation	Apr 29, 2025	Dataset DistillationLanguage Modeling	CodeCode Available	0
Latent Video Dataset Distillation	Apr 23, 2025	Dataset DistillationDiversity	—Unverified	0
Distribution-aware Dataset Distillation for Efficient Image Restoration	Apr 21, 2025	4kDataset Distillation	—Unverified	0
Knowledge Distillation and Dataset Distillation of Large Language Models: Emerging Trends, Challenges, and Future Directions	Apr 20, 2025	Dataset DistillationDiversity	—Unverified	0
Permutation-Invariant and Orientation-Aware Dataset Distillation for 3D Point Clouds	Mar 28, 2025	Dataset Distillation	—Unverified	0
Curriculum Coarse-to-Fine Selection for High-IPC Dataset Distillation	Mar 24, 2025	Dataset Distillation	CodeCode Available	0
Generative Dataset Distillation using Min-Max Diffusion Model	Mar 24, 2025	Dataset DistillationDiversity	—Unverified	0
Enhancing Dataset Distillation via Non-Critical Region Refinement	Mar 24, 2025	Dataset DistillationTransfer Learning	CodeCode Available	0
Dataset Distillation for Quantum Neural Networks	Mar 23, 2025	Dataset Distillation	—Unverified	0
Finding Stable Subnetworks at Initialization with Dataset Distillation	Mar 23, 2025	Dataset DistillationLinear Mode Connectivity	—Unverified	0
Robust Dataset Distillation by Matching Adversarial Trajectories	Mar 15, 2025	Adversarial RobustnessDataset Distillation	—Unverified	0
Understanding Dataset Distillation via Spectral Filtering	Mar 3, 2025	Dataset DistillationFeature Correlation	—Unverified	0
Secure Federated Data Distillation	Feb 19, 2025	Dataset DistillationPrivacy Preserving	—Unverified	0
Does Training with Synthetic Data Truly Protect Privacy?	Feb 18, 2025	Data-free Knowledge DistillationDataset Distillation	CodeCode Available	0
The Evolution of Dataset Distillation: Toward Scalable and Generalizable Solutions	Feb 8, 2025	Dataset DistillationSurvey	—Unverified	0
Trust-Aware Diversion for Data-Effective Distillation	Feb 7, 2025	Dataset DistillationModel Optimization	—Unverified	0
Dark Distillation: Backdooring Distilled Datasets without Accessing Raw Data	Feb 6, 2025	Dataset Distillation	—Unverified	0
TD3: Tucker Decomposition Based Dataset Distillation Method for Sequential Recommendation	Feb 5, 2025	Dataset DistillationMeta-Learning	CodeCode Available	0
Knowledge Hierarchy Guided Biological-Medical Dataset Distillation for Domain LLM Training	Jan 25, 2025	Dataset DistillationQuestion Answering	—Unverified	0

Show:10 25 50

← PrevPage 2 of 5Next →

No leaderboard results yet.