Dataset Distillation

Dataset distillation is the task of synthesizing a small dataset such that models trained on it achieve high performance on the original large dataset. A dataset distillation algorithm takes as input a large real dataset to be distilled (training set), and outputs a small synthetic distilled dataset, which is evaluated via testing models trained on this distilled dataset on a separate real dataset (validation/test set). A good small distilled dataset is not only useful in dataset understanding, but has various applications (e.g., continual learning, privacy, neural architecture search, etc.).

Papers

Recently Added Most Hyped Most Active Needs Verification Most Verified

Showing 51–75 of 216 papers

Title	Date	Tasks	Status	Hype
Distill Gold from Massive Ores: Bi-level Data Pruning towards Efficient Dataset Distillation	May 28, 2023	Dataset Distillation	CodeCode Available	1
Generalizing Dataset Distillation via Deep Generative Prior	May 2, 2023	Dataset Distillation	CodeCode Available	1
DiM: Distilling Dataset into Generative Model	Mar 8, 2023	Dataset Distillationmodel	CodeCode Available	1
DREAM: Efficient Dataset Distillation by Representative Matching	Feb 28, 2023	Dataset DistillationDiversity	CodeCode Available	1
Dataset Distillation with Convexified Implicit Gradients	Feb 13, 2023	Dataset DistillationDataset Distillation - 1IPC	CodeCode Available	1
Backdoor Attacks Against Dataset Distillation	Jan 3, 2023	Backdoor AttackDataset Distillation	CodeCode Available	1
Minimizing the Accumulated Trajectory Error to Improve Dataset Distillation	Nov 20, 2022	Dataset DistillationDataset Distillation - 1IPC	CodeCode Available	1
Scaling Up Dataset Distillation to ImageNet-1K with Constant Memory	Nov 19, 2022	Dataset DistillationDataset Distillation - 1IPC	CodeCode Available	1
Dataset Factorization for Condensation	Nov 1, 2022	Dataset DistillationDiversity	CodeCode Available	1
Dataset Distillation via Factorization	Oct 30, 2022	Dataset DistillationHallucination	CodeCode Available	1
Efficient Dataset Distillation Using Random Feature Approximation	Oct 21, 2022	Dataset CondensationDataset Distillation	CodeCode Available	1
Federated Learning via Decentralized Dataset Distillation in Resource-Constrained Edge Environments	Aug 24, 2022	Dataset DistillationFederated Learning	CodeCode Available	1
Remember the Past: Distilling Datasets into Addressable Memories for Neural Networks	Jun 6, 2022	Continual LearningDataset Distillation	CodeCode Available	1
Flexible Dataset Distillation: Learn Labels Instead of Images	Jun 15, 2020	Dataset DistillationData Summarization	CodeCode Available	1
Soft-Label Dataset Distillation and Text Dataset Distillation	Oct 6, 2019	Dataset DistillationData Summarization	CodeCode Available	1
Dataset Distillation	Nov 27, 2018	Dataset Distillation	CodeCode Available	1
Information-Guided Diffusion Sampling for Dataset Distillation	Jul 7, 2025	Dataset Distillation	—Unverified	0
Task-Specific Generative Dataset Distillation with Difficulty-Guided Sampling	Jul 4, 2025	Dataset Distillation	—Unverified	0
FedWSIDD: Federated Whole Slide Image Classification via Dataset Distillation	Jun 18, 2025	ClassificationDataset Distillation	—Unverified	0
Dataset distillation for memorized data: Soft labels can leak held-out teacher knowledge	Jun 17, 2025	Dataset DistillationMemorization	CodeCode Available	0
Hyperbolic Dataset Distillation	May 30, 2025	Computational EfficiencyDataset Distillation	—Unverified	0
Data-Distill-Net: A Data Distillation Approach Tailored for Reply-based Continual Learning	May 26, 2025	Continual LearningDataset Distillation	—Unverified	0
Diversity-Driven Generative Dataset Distillation Based on Diffusion Model with Self-Adaptive Memory	May 26, 2025	Dataset DistillationDiversity	—Unverified	0
MGD^3: Mode-Guided Dataset Distillation using Diffusion Models	May 25, 2025	Dataset DistillationDiversity	—Unverified	0
CONCORD: Concept-Informed Diffusion for Dataset Distillation	May 23, 2025	Computational EfficiencyDataset Distillation	CodeCode Available	0

Show:10 25 50

← PrevPage 3 of 9Next →

No leaderboard results yet.