Dataset Distillation

Dataset distillation is the task of synthesizing a small dataset such that models trained on it achieve high performance on the original large dataset. A dataset distillation algorithm takes as input a large real dataset to be distilled (training set), and outputs a small synthetic distilled dataset, which is evaluated via testing models trained on this distilled dataset on a separate real dataset (validation/test set). A good small distilled dataset is not only useful in dataset understanding, but has various applications (e.g., continual learning, privacy, neural architecture search, etc.).

Papers

Recently Added Most Hyped Most Active Needs Verification Most Verified

Showing 1–25 of 216 papers

Title	Date	Tasks	Status	Hype
Dataset Distillation with Neural Characteristic Function: A Minmax Perspective	Jan 1, 2025	Computational EfficiencyDataset Distillation	CodeCode Available	3
FedCache 2.0: Federated Edge Learning with Knowledge Caching and Dataset Distillation	May 22, 2024	Dataset DistillationFederated Learning	CodeCode Available	2
DD-Ranking: Rethinking the Evaluation of Dataset Distillation	May 19, 2025	Data AugmentationData Compression	CodeCode Available	2
Dataset Distillation by Matching Training Trajectories	Mar 22, 2022	Dataset DistillationDataset Distillation - 1IPC	CodeCode Available	2
Dataset Quantization	Aug 21, 2023	Dataset Distillationobject-detection	CodeCode Available	2
Self-supervised Dataset Distillation: A Good Compression Is All You Need	Apr 11, 2024	AllDataset Distillation	CodeCode Available	2
DELT: A Simple Diversity-driven EarlyLate Training for Dataset Distillation	Nov 29, 2024	Dataset DistillationDiversity	CodeCode Available	1
Dataset Quantization with Active Learning based Adaptive Sampling	Jul 9, 2024	Active LearningDataset Distillation	CodeCode Available	1
DiLM: Distilling Dataset into Language Model for Text-level Dataset Distillation	Mar 30, 2024	Dataset DistillationIn-Context Learning	CodeCode Available	1
Dataset Distillation via Vision-Language Category Prototype	Jun 30, 2025	Dataset DistillationDescriptive	CodeCode Available	1
Backdoor Attacks Against Dataset Distillation	Jan 3, 2023	Backdoor AttackDataset Distillation	CodeCode Available	1
A Label is Worth a Thousand Images in Dataset Distillation	Jun 15, 2024	Dataset Distillation	CodeCode Available	1
A Large-Scale Study on Video Action Dataset Condensation	Dec 30, 2024	Action RecognitionDataset Condensation	CodeCode Available	1
DataDAM: Efficient Dataset Distillation with Attention Matching	Sep 29, 2023	Continual LearningDataset Distillation	CodeCode Available	1
Dataset Distillation via Factorization	Oct 30, 2022	Dataset DistillationHallucination	CodeCode Available	1
Dataset Factorization for Condensation	Nov 1, 2022	Dataset DistillationDiversity	CodeCode Available	1
Can pre-trained models assist in dataset distillation?	Oct 5, 2023	Dataset DistillationDiversity	CodeCode Available	1
Are Large-scale Soft Labels Necessary for Large-scale Dataset Distillation?	Oct 21, 2024	Dataset DistillationDiversity	CodeCode Available	1
CaO_2: Rectifying Inconsistencies in Diffusion-Based Dataset Distillation	Jun 27, 2025	Dataset Distillation	CodeCode Available	1
D^4: Dataset Distillation via Disentangled Diffusion Model	Jan 1, 2024	Dataset Distillation	CodeCode Available	1
Dataset Distillation via Curriculum Data Synthesis in Large Data Era	Nov 30, 2023	Data AugmentationDataset Distillation	CodeCode Available	1
Dataset Distillation with Convexified Implicit Gradients	Feb 13, 2023	Dataset DistillationDataset Distillation - 1IPC	CodeCode Available	1
Dataset Distillation	Nov 27, 2018	Dataset Distillation	CodeCode Available	1
Dancing with Still Images: Video Distillation via Static-Dynamic Disentanglement	Dec 1, 2023	Dataset DistillationDisentanglement	CodeCode Available	1
D^4M: Dataset Distillation via Disentangled Diffusion Model	Jul 21, 2024	Dataset Distillation	CodeCode Available	1

Show:10 25 50

← PrevPage 1 of 9Next →

No leaderboard results yet.