Dataset Distillation

Dataset distillation is the task of synthesizing a small dataset such that models trained on it achieve high performance on the original large dataset. A dataset distillation algorithm takes as input a large real dataset to be distilled (training set), and outputs a small synthetic distilled dataset, which is evaluated via testing models trained on this distilled dataset on a separate real dataset (validation/test set). A good small distilled dataset is not only useful in dataset understanding, but has various applications (e.g., continual learning, privacy, neural architecture search, etc.).

Papers

Recently Added Most Hyped Most Active Needs Verification Most Verified

Showing 101–150 of 216 papers

Title	Date	Tasks	Status	Score
Risk of Text Backdoor Attacks Under Dataset Distillation	Oct 17, 2024	Backdoor AttackDataset Distillation	CodeCode Available	5
Sequential Subset Matching for Dataset Distillation	Nov 2, 2023	Dataset Distillation	CodeCode Available	5
TD3: Tucker Decomposition Based Dataset Distillation Method for Sequential Recommendation	Feb 5, 2025	Dataset DistillationMeta-Learning	CodeCode Available	5
Teddy: Efficient Large-Scale Dataset Distillation via Taylor-Approximated Matching	Oct 10, 2024	Dataset Distillation	CodeCode Available	5
Towards Adversarially Robust Dataset Distillation by Curvature Regularization	Mar 15, 2024	Adversarial RobustnessDataset Distillation	CodeCode Available	5
Towards Mitigating Architecture Overfitting on Distilled Datasets	Sep 8, 2023	Dataset DistillationKnowledge Distillation	CodeCode Available	5
UniDetox: Universal Detoxification of Large Language Models via Dataset Distillation	Apr 29, 2025	Dataset DistillationLanguage Modeling	CodeCode Available	5
Towards Efficient Deep Hashing Retrieval: Condensing Your Data via Feature-Embedding Matching	May 29, 2023	Dataset CondensationDataset Distillation	—Unverified	0
Adaptive Dataset Quantization	Dec 22, 2024	Contrastive LearningDataset Distillation	—Unverified	0
Video Set Distillation: Information Diversification and Temporal Densification	Nov 28, 2024	Dataset Distillation	—Unverified	0
Exploring the potential of prototype-based soft-labels data distillation for imbalanced data classification	Mar 25, 2024	Dataset DistillationOne-Shot Learning	—Unverified	0
Dataset Distillation via the Wasserstein Metric	Nov 30, 2023	Dataset Distillation	—Unverified	0
FairDD: Fair Dataset Distillation via Synchronized Matching	Nov 29, 2024	Dataset DistillationFairness	—Unverified	0
Dataset Distillation Using Parameter Pruning	Sep 29, 2022	Dataset Distillation	—Unverified	0
Dataset Distillation Meets Provable Subset Selection	Jul 16, 2023	Dataset Distillation	—Unverified	0
Federated Virtual Learning on Heterogeneous Data with Local-global Distillation	Mar 4, 2023	Dataset DistillationFederated Learning	—Unverified	0
FedGKD: Unleashing the Power of Collaboration in Federated Graph Neural Networks	Sep 18, 2023	Dataset Distillation	—Unverified	0
FedWSIDD: Federated Whole Slide Image Classification via Dataset Distillation	Jun 18, 2025	ClassificationDataset Distillation	—Unverified	0
Few-Shot Dataset Distillation via Translative Pre-Training	Jan 1, 2023	Dataset Distillation	—Unverified	0
Finding Stable Subnetworks at Initialization with Dataset Distillation	Mar 23, 2025	Dataset DistillationLinear Mode Connectivity	—Unverified	0
Dataset Distillation in Medical Imaging: A Feasibility Study	Jul 19, 2024	Dataset DistillationMedical Image Analysis	—Unverified	0
Privacy-Preserving Federated Learning via Dataset Distillation	Oct 25, 2024	AttributeDataset Distillation	—Unverified	0
Dataset Distillation in Latent Space	Nov 27, 2023	Dataset Distillation	—Unverified	0
FocusDD: Real-World Scene Infusion for Robust Dataset Distillation	Jan 11, 2025	Dataset Distillationobject-detection	—Unverified	0
Dataset Distillation from First Principles: Integrating Core Information Extraction and Purposeful Learning	Sep 2, 2024	Dataset Distillation	—Unverified	0
FYI: Flip Your Images for Dataset Distillation	Jul 11, 2024	3D Object DetectionDataset Distillation	—Unverified	0
Dataset Distillation for Quantum Neural Networks	Mar 23, 2025	Dataset Distillation	—Unverified	0
Generative Dataset Distillation: Balancing Global Structure and Local Details	Apr 26, 2024	Dataset DistillationDataset Generation	—Unverified	0
Dataset Distillation for Medical Dataset Sharing	Sep 29, 2022	Dataset Distillation	—Unverified	0
Generative Dataset Distillation Based on Self-knowledge Distillation	Jan 8, 2025	Dataset DistillationKnowledge Distillation	—Unverified	0
Generative Dataset Distillation using Min-Max Diffusion Model	Mar 24, 2025	Dataset DistillationDiversity	—Unverified	0
Dataset Distillation for Histopathology Image Classification	Aug 19, 2024	ClassificationDataset Distillation	—Unverified	0
Towards Stable and Storage-efficient Dataset Distillation: Matching Convexified Trajectory	Jun 28, 2024	Dataset Distillation	—Unverified	0
Understanding Reconstruction Attacks with the Neural Tangent Kernel and Dataset Distillation	Feb 2, 2023	Dataset DistillationReconstruction Attack	—Unverified	0
Heavy Labels Out! Dataset Distillation with Label Space Lightening	Aug 15, 2024	Dataset Distillation	—Unverified	0
Hierarchical Features Matter: A Deep Exploration of GAN Priors for Improved Dataset Distillation	Jun 9, 2024	Dataset Distillation	—Unverified	0
Hierarchical Features Matter: A Deep Exploration of Progressive Parameterization Method for Dataset Distillation	Jan 1, 2025	Dataset Distillation	—Unverified	0
Hyperbolic Dataset Distillation	May 30, 2025	Computational EfficiencyDataset Distillation	—Unverified	0
Image Dataset Compression Based on Matrix Product States	Sep 29, 2021	Dataset Distillation	—Unverified	0
A Continual and Incremental Learning Approach for TinyML On-device Training Using Dataset Distillation and Model Size Adaption	Sep 11, 2024	Anomaly DetectionComputational Efficiency	—Unverified	0
Importance-Aware Adaptive Dataset Distillation	Jan 29, 2024	Dataset Distillation	—Unverified	0
Dataset Distillation-based Hybrid Federated Learning on Non-IID Data	Sep 26, 2024	Dataset DistillationFederated Learning	—Unverified	0
Dataset Distillation as Pushforward Optimal Quantization	Jan 13, 2025	Dataset DistillationDecoder	—Unverified	0
Information-Guided Diffusion Sampling for Dataset Distillation	Jul 7, 2025	Dataset Distillation	—Unverified	0
Knowledge Distillation and Dataset Distillation of Large Language Models: Emerging Trends, Challenges, and Future Directions	Apr 20, 2025	Dataset DistillationDiversity	—Unverified	0
Knowledge Hierarchy Guided Biological-Medical Dataset Distillation for Domain LLM Training	Jan 25, 2025	Dataset DistillationQuestion Answering	—Unverified	0
Label-Augmented Dataset Distillation	Sep 24, 2024	Dataset Distillation	—Unverified	0
Dataset Distillation: A Comprehensive Review	Jan 17, 2023	Dataset CondensationDataset Distillation	—Unverified	0
Latent Dataset Distillation with Diffusion Models	Mar 6, 2024	Dataset Distillation	—Unverified	0
Latent Video Dataset Distillation	Apr 23, 2025	Dataset DistillationDiversity	—Unverified	0

Show:10 25 50

← PrevPage 3 of 5Next →

No leaderboard results yet.