Dataset Distillation

Dataset distillation is the task of synthesizing a small dataset such that models trained on it achieve high performance on the original large dataset. A dataset distillation algorithm takes as input a large real dataset to be distilled (training set), and outputs a small synthetic distilled dataset, which is evaluated via testing models trained on this distilled dataset on a separate real dataset (validation/test set). A good small distilled dataset is not only useful in dataset understanding, but has various applications (e.g., continual learning, privacy, neural architecture search, etc.).

Papers

Recently Added Most Hyped Most Active Needs Verification Most Verified

Showing 1–50 of 216 papers

Title	Date	Tasks	Status	Hype
Dataset Distillation with Neural Characteristic Function: A Minmax Perspective	Jan 1, 2025	Computational EfficiencyDataset Distillation	CodeCode Available	3
DD-Ranking: Rethinking the Evaluation of Dataset Distillation	May 19, 2025	Data AugmentationData Compression	CodeCode Available	2
Self-supervised Dataset Distillation: A Good Compression Is All You Need	Apr 11, 2024	AllDataset Distillation	CodeCode Available	2
FedCache 2.0: Federated Edge Learning with Knowledge Caching and Dataset Distillation	May 22, 2024	Dataset DistillationFederated Learning	CodeCode Available	2
Dataset Distillation by Matching Training Trajectories	Mar 22, 2022	Dataset DistillationDataset Distillation - 1IPC	CodeCode Available	2
Dataset Quantization	Aug 21, 2023	Dataset Distillationobject-detection	CodeCode Available	2
Improve Cross-Architecture Generalization on Dataset Distillation	Feb 20, 2024	Dataset DistillationKnowledge Distillation	CodeCode Available	1
GIFT: Unlocking Full Potential of Labels in Distilled Dataset at Near-zero Cost	May 23, 2024	Dataset Distillation	CodeCode Available	1
Soft-Label Dataset Distillation and Text Dataset Distillation	Oct 6, 2019	Dataset DistillationData Summarization	CodeCode Available	1
Federated Learning via Decentralized Dataset Distillation in Resource-Constrained Edge Environments	Aug 24, 2022	Dataset DistillationFederated Learning	CodeCode Available	1
Generalizing Dataset Distillation via Deep Generative Prior	May 2, 2023	Dataset Distillation	CodeCode Available	1
Generative Dataset Distillation Based on Diffusion Model	Aug 16, 2024	Data AugmentationDataset Distillation	CodeCode Available	1
A Large-Scale Study on Video Action Dataset Condensation	Dec 30, 2024	Action RecognitionDataset Condensation	CodeCode Available	1
Group Distributionally Robust Dataset Distillation with Risk Minimization	Feb 7, 2024	Dataset DistillationFederated Learning	CodeCode Available	1
Efficient Dataset Distillation via Minimax Diffusion	Nov 27, 2023	Dataset DistillationDiversity	CodeCode Available	1
Flexible Dataset Distillation: Learn Labels Instead of Images	Jun 15, 2020	Dataset DistillationData Summarization	CodeCode Available	1
Distilling Datasets Into Less Than One Image	Mar 18, 2024	Dataset CondensationDataset Distillation	CodeCode Available	1
Distill Gold from Massive Ores: Bi-level Data Pruning towards Efficient Dataset Distillation	May 28, 2023	Dataset Distillation	CodeCode Available	1
Dataset Distillation via Factorization	Oct 30, 2022	Dataset DistillationHallucination	CodeCode Available	1
Efficient Dataset Distillation Using Random Feature Approximation	Oct 21, 2022	Dataset CondensationDataset Distillation	CodeCode Available	1
Emphasizing Discriminative Features for Dataset Distillation in Complex Scenarios	Oct 22, 2024	Dataset Distillation	CodeCode Available	1
Exploiting Inter-sample and Inter-feature Relations in Dataset Distillation	Mar 31, 2024	Dataset Distillation	CodeCode Available	1
Dataset Distillation with Convexified Implicit Gradients	Feb 13, 2023	Dataset DistillationDataset Distillation - 1IPC	CodeCode Available	1
Frequency Domain-based Dataset Distillation	Nov 15, 2023	Dataset Distillation	CodeCode Available	1
A Label is Worth a Thousand Images in Dataset Distillation	Jun 15, 2024	Dataset Distillation	CodeCode Available	1
Dataset Distillation via Vision-Language Category Prototype	Jun 30, 2025	Dataset DistillationDescriptive	CodeCode Available	1
D^4: Dataset Distillation via Disentangled Diffusion Model	Jan 1, 2024	Dataset Distillation	CodeCode Available	1
D^4M: Dataset Distillation via Disentangled Diffusion Model	Jul 21, 2024	Dataset Distillation	CodeCode Available	1
Dancing with Still Images: Video Distillation via Static-Dynamic Disentanglement	Dec 1, 2023	Dataset DistillationDisentanglement	CodeCode Available	1
Does Graph Distillation See Like Vision Dataset Counterpart?	Oct 13, 2023	Anomaly DetectionDataset Distillation	CodeCode Available	1
DELT: A Simple Diversity-driven EarlyLate Training for Dataset Distillation	Nov 29, 2024	Dataset DistillationDiversity	CodeCode Available	1
DiLM: Distilling Dataset into Language Model for Text-level Dataset Distillation	Mar 30, 2024	Dataset DistillationIn-Context Learning	CodeCode Available	1
DataDAM: Efficient Dataset Distillation with Attention Matching	Sep 29, 2023	Continual LearningDataset Distillation	CodeCode Available	1
Dataset Quantization with Active Learning based Adaptive Sampling	Jul 9, 2024	Active LearningDataset Distillation	CodeCode Available	1
Dataset Distillation	Nov 27, 2018	Dataset Distillation	CodeCode Available	1
Are Large-scale Soft Labels Necessary for Large-scale Dataset Distillation?	Oct 21, 2024	Dataset DistillationDiversity	CodeCode Available	1
Can pre-trained models assist in dataset distillation?	Oct 5, 2023	Dataset DistillationDiversity	CodeCode Available	1
Distilling Dataset into Neural Field	Mar 5, 2025	Dataset Distillation	CodeCode Available	1
CaO_2: Rectifying Inconsistencies in Diffusion-Based Dataset Distillation	Jun 27, 2025	Dataset Distillation	CodeCode Available	1
DiM: Distilling Dataset into Generative Model	Mar 8, 2023	Dataset Distillationmodel	CodeCode Available	1
DREAM+: Efficient Dataset Distillation by Bidirectional Representative Matching	Oct 23, 2023	Dataset DistillationTransfer Learning	CodeCode Available	1
Efficiency for Free: Ideal Data Are Transportable Representations	May 23, 2024	Dataset DistillationRepresentation Learning	CodeCode Available	1
Dataset Distillation via Committee Voting	Jan 13, 2025	Dataset Distillation	CodeCode Available	1
Embarassingly Simple Dataset Distillation	Nov 13, 2023	Bilevel OptimizationDataset Distillation	CodeCode Available	1
DREAM: Efficient Dataset Distillation by Representative Matching	Feb 28, 2023	Dataset DistillationDiversity	CodeCode Available	1
FADRM: Fast and Accurate Data Residual Matching for Dataset Distillation	Jun 30, 2025	Computational EfficiencyDataset Distillation	CodeCode Available	1
Backdoor Attacks Against Dataset Distillation	Jan 3, 2023	Backdoor AttackDataset Distillation	CodeCode Available	1
Dataset Distillation via Curriculum Data Synthesis in Large Data Era	Nov 30, 2023	Data AugmentationDataset Distillation	CodeCode Available	1
Dataset Factorization for Condensation	Nov 1, 2022	Dataset DistillationDiversity	CodeCode Available	1
Flowing Datasets with Wasserstein over Wasserstein Gradient Flows	Jun 9, 2025	Dataset DistillationDomain Adaptation	CodeCode Available	1

Show:10 25 50

← PrevPage 1 of 5Next →

No leaderboard results yet.