Dataset Distillation

Dataset distillation is the task of synthesizing a small dataset such that models trained on it achieve high performance on the original large dataset. A dataset distillation algorithm takes as input a large real dataset to be distilled (training set), and outputs a small synthetic distilled dataset, which is evaluated via testing models trained on this distilled dataset on a separate real dataset (validation/test set). A good small distilled dataset is not only useful in dataset understanding, but has various applications (e.g., continual learning, privacy, neural architecture search, etc.).

Papers

Recently Added Most Hyped Most Active Needs Verification Most Verified

Showing 26–50 of 216 papers

Title	Date	Tasks	Status	Hype
Dataset Distillation via Vision-Language Category Prototype	Jun 30, 2025	Dataset DistillationDescriptive	CodeCode Available	1
D^4: Dataset Distillation via Disentangled Diffusion Model	Jan 1, 2024	Dataset Distillation	CodeCode Available	1
D^4M: Dataset Distillation via Disentangled Diffusion Model	Jul 21, 2024	Dataset Distillation	CodeCode Available	1
Dancing with Still Images: Video Distillation via Static-Dynamic Disentanglement	Dec 1, 2023	Dataset DistillationDisentanglement	CodeCode Available	1
Does Graph Distillation See Like Vision Dataset Counterpart?	Oct 13, 2023	Anomaly DetectionDataset Distillation	CodeCode Available	1
DELT: A Simple Diversity-driven EarlyLate Training for Dataset Distillation	Nov 29, 2024	Dataset DistillationDiversity	CodeCode Available	1
DiLM: Distilling Dataset into Language Model for Text-level Dataset Distillation	Mar 30, 2024	Dataset DistillationIn-Context Learning	CodeCode Available	1
DataDAM: Efficient Dataset Distillation with Attention Matching	Sep 29, 2023	Continual LearningDataset Distillation	CodeCode Available	1
Dataset Quantization with Active Learning based Adaptive Sampling	Jul 9, 2024	Active LearningDataset Distillation	CodeCode Available	1
Dataset Distillation	Nov 27, 2018	Dataset Distillation	CodeCode Available	1
Are Large-scale Soft Labels Necessary for Large-scale Dataset Distillation?	Oct 21, 2024	Dataset DistillationDiversity	CodeCode Available	1
Can pre-trained models assist in dataset distillation?	Oct 5, 2023	Dataset DistillationDiversity	CodeCode Available	1
Distilling Dataset into Neural Field	Mar 5, 2025	Dataset Distillation	CodeCode Available	1
CaO_2: Rectifying Inconsistencies in Diffusion-Based Dataset Distillation	Jun 27, 2025	Dataset Distillation	CodeCode Available	1
DiM: Distilling Dataset into Generative Model	Mar 8, 2023	Dataset Distillationmodel	CodeCode Available	1
DREAM+: Efficient Dataset Distillation by Bidirectional Representative Matching	Oct 23, 2023	Dataset DistillationTransfer Learning	CodeCode Available	1
Efficiency for Free: Ideal Data Are Transportable Representations	May 23, 2024	Dataset DistillationRepresentation Learning	CodeCode Available	1
Dataset Distillation via Committee Voting	Jan 13, 2025	Dataset Distillation	CodeCode Available	1
Embarassingly Simple Dataset Distillation	Nov 13, 2023	Bilevel OptimizationDataset Distillation	CodeCode Available	1
DREAM: Efficient Dataset Distillation by Representative Matching	Feb 28, 2023	Dataset DistillationDiversity	CodeCode Available	1
FADRM: Fast and Accurate Data Residual Matching for Dataset Distillation	Jun 30, 2025	Computational EfficiencyDataset Distillation	CodeCode Available	1
Backdoor Attacks Against Dataset Distillation	Jan 3, 2023	Backdoor AttackDataset Distillation	CodeCode Available	1
Dataset Distillation via Curriculum Data Synthesis in Large Data Era	Nov 30, 2023	Data AugmentationDataset Distillation	CodeCode Available	1
Dataset Factorization for Condensation	Nov 1, 2022	Dataset DistillationDiversity	CodeCode Available	1
Flowing Datasets with Wasserstein over Wasserstein Gradient Flows	Jun 9, 2025	Dataset DistillationDomain Adaptation	CodeCode Available	1

Show:10 25 50

← PrevPage 2 of 9Next →

No leaderboard results yet.