Dataset Distillation

Dataset distillation is the task of synthesizing a small dataset such that models trained on it achieve high performance on the original large dataset. A dataset distillation algorithm takes as input a large real dataset to be distilled (training set), and outputs a small synthetic distilled dataset, which is evaluated via testing models trained on this distilled dataset on a separate real dataset (validation/test set). A good small distilled dataset is not only useful in dataset understanding, but has various applications (e.g., continual learning, privacy, neural architecture search, etc.).

Papers

Recently Added Most Hyped Most Active Needs Verification Most Verified

Showing 151–200 of 216 papers

Title	Date	Tasks	Status
Video Dataset Condensation with Diffusion Models	May 10, 2025	Computational EfficiencyDataset Condensation	—Unverified
Video Set Distillation: Information Diversification and Temporal Densification	Nov 28, 2024	Dataset Distillation	—Unverified
FairDD: Fair Dataset Distillation via Synchronized Matching	Nov 29, 2024	Dataset DistillationFairness	—Unverified
Federated Virtual Learning on Heterogeneous Data with Local-global Distillation	Mar 4, 2023	Dataset DistillationFederated Learning	—Unverified
FedGKD: Unleashing the Power of Collaboration in Federated Graph Neural Networks	Sep 18, 2023	Dataset Distillation	—Unverified
FedWSIDD: Federated Whole Slide Image Classification via Dataset Distillation	Jun 18, 2025	ClassificationDataset Distillation	—Unverified
Few-Shot Dataset Distillation via Translative Pre-Training	Jan 1, 2023	Dataset Distillation	—Unverified
Finding Stable Subnetworks at Initialization with Dataset Distillation	Mar 23, 2025	Dataset DistillationLinear Mode Connectivity	—Unverified
Privacy-Preserving Federated Learning via Dataset Distillation	Oct 25, 2024	AttributeDataset Distillation	—Unverified
FocusDD: Real-World Scene Infusion for Robust Dataset Distillation	Jan 11, 2025	Dataset Distillationobject-detection	—Unverified
FYI: Flip Your Images for Dataset Distillation	Jul 11, 2024	3D Object DetectionDataset Distillation	—Unverified
Generative Dataset Distillation: Balancing Global Structure and Local Details	Apr 26, 2024	Dataset DistillationDataset Generation	—Unverified
Generative Dataset Distillation Based on Self-knowledge Distillation	Jan 8, 2025	Dataset DistillationKnowledge Distillation	—Unverified
Generative Dataset Distillation using Min-Max Diffusion Model	Mar 24, 2025	Dataset DistillationDiversity	—Unverified
Heavy Labels Out! Dataset Distillation with Label Space Lightening	Aug 15, 2024	Dataset Distillation	—Unverified
Hierarchical Features Matter: A Deep Exploration of GAN Priors for Improved Dataset Distillation	Jun 9, 2024	Dataset Distillation	—Unverified
Hierarchical Features Matter: A Deep Exploration of Progressive Parameterization Method for Dataset Distillation	Jan 1, 2025	Dataset Distillation	—Unverified
Hyperbolic Dataset Distillation	May 30, 2025	Computational EfficiencyDataset Distillation	—Unverified
Image Dataset Compression Based on Matrix Product States	Sep 29, 2021	Dataset Distillation	—Unverified
Importance-Aware Adaptive Dataset Distillation	Jan 29, 2024	Dataset Distillation	—Unverified
Information-Guided Diffusion Sampling for Dataset Distillation	Jul 7, 2025	Dataset Distillation	—Unverified
Knowledge Distillation and Dataset Distillation of Large Language Models: Emerging Trends, Challenges, and Future Directions	Apr 20, 2025	Dataset DistillationDiversity	—Unverified
Knowledge Hierarchy Guided Biological-Medical Dataset Distillation for Domain LLM Training	Jan 25, 2025	Dataset DistillationQuestion Answering	—Unverified
Label-Augmented Dataset Distillation	Sep 24, 2024	Dataset Distillation	—Unverified
Latent Dataset Distillation with Diffusion Models	Mar 6, 2024	Dataset Distillation	—Unverified
Exploring the Impact of Dataset Bias on Dataset Distillation	Mar 24, 2024	Dataset Distillation	CodeCode Available
Dataset Distillation for Offline Reinforcement Learning	Jul 29, 2024	Dataset Distillationreinforcement-learning	CodeCode Available
Exploring Multilingual Text Data Distillation	Aug 9, 2023	Dataset DistillationFairness	CodeCode Available
Exploring Generalized Gait Recognition: Reducing Redundancy and Noise within Indoor and Outdoor Datasets	May 21, 2025	Dataset DistillationGait Recognition	CodeCode Available
TD3: Tucker Decomposition Based Dataset Distillation Method for Sequential Recommendation	Feb 5, 2025	Dataset DistillationMeta-Learning	CodeCode Available
Dataset Distillers Are Good Label Denoisers In the Wild	Nov 18, 2024	Dataset DistillationDenoising	CodeCode Available
Teddy: Efficient Large-Scale Dataset Distillation via Taylor-Approximated Matching	Oct 10, 2024	Dataset Distillation	CodeCode Available
Dataset distillation for memorized data: Soft labels can leak held-out teacher knowledge	Jun 17, 2025	Dataset DistillationMemorization	CodeCode Available
BEARD: Benchmarking the Adversarial Robustness for Dataset Distillation	Nov 14, 2024	Adversarial AttackAdversarial Robustness	CodeCode Available
Enhancing Dataset Distillation via Non-Critical Region Refinement	Mar 24, 2025	Dataset DistillationTransfer Learning	CodeCode Available
ATOM: Attention Mixer for Efficient Dataset Distillation	May 2, 2024	Dataset DistillationNeural Architecture Search	CodeCode Available
Enhancing Dataset Distillation via Label Inconsistency Elimination and Learning Pattern Refinement	Oct 17, 2024	Dataset Distillation	CodeCode Available
Dataset Distillation with Infinitely Wide Convolutional Networks	Jul 27, 2021	Dataset Distillationimage-classification	CodeCode Available
AST: Effective Dataset Distillation through Alignment with Smooth and High-Quality Expert Trajectories	Oct 16, 2023	Dataset Distillation	CodeCode Available
Dataset Distillation via Knowledge Distillation: Towards Efficient Self-Supervised Pre-Training of Deep Networks	Oct 3, 2024	Dataset DistillationKnowledge Distillation	CodeCode Available
Does Training with Synthetic Data Truly Protect Privacy?	Feb 18, 2025	Data-free Knowledge DistillationDataset Distillation	CodeCode Available
Risk of Text Backdoor Attacks Under Dataset Distillation	Oct 17, 2024	Backdoor AttackDataset Distillation	CodeCode Available
Diversity-Driven Synthesis: Enhancing Dataset Distillation through Directed Weight Adjustment	Sep 26, 2024	Dataset DistillationDiversity	CodeCode Available
Towards Adversarially Robust Dataset Distillation by Curvature Regularization	Mar 15, 2024	Adversarial RobustnessDataset Distillation	CodeCode Available
Neural Spectral Decomposition for Dataset Distillation	Aug 29, 2024	Dataset Distillation	CodeCode Available
Distributional Dataset Distillation with Subtask Decomposition	Mar 1, 2024	Dataset DistillationDecoder	CodeCode Available
Going Beyond Feature Similarity: Effective Dataset Distillation based on Class-Aware Conditional Mutual Information	Dec 13, 2024	Dataset Distillation	CodeCode Available
Distill the Best, Ignore the Rest: Improving Dataset Distillation with Loss-Value-Based Pruning	Nov 18, 2024	Dataset Distillation	CodeCode Available
UniDetox: Universal Detoxification of Large Language Models via Dataset Distillation	Apr 29, 2025	Dataset DistillationLanguage Modeling	CodeCode Available
Dataset Distillation via Adversarial Prediction Matching	Dec 14, 2023	Dataset DistillationGPU	CodeCode Available

Show:10 25 50

← PrevPage 4 of 5Next →

No leaderboard results yet.