Dataset Distillation

Dataset distillation is the task of synthesizing a small dataset such that models trained on it achieve high performance on the original large dataset. A dataset distillation algorithm takes as input a large real dataset to be distilled (training set), and outputs a small synthetic distilled dataset, which is evaluated via testing models trained on this distilled dataset on a separate real dataset (validation/test set). A good small distilled dataset is not only useful in dataset understanding, but has various applications (e.g., continual learning, privacy, neural architecture search, etc.).

Papers

Recently Added Most Hyped Most Active Needs Verification Most Verified

Showing 76–100 of 216 papers

Title	Date	Tasks	Status
Contrastive Learning-Enhanced Trajectory Matching for Small-Scale Dataset Distillation	May 21, 2025	Contrastive LearningDataset Distillation	—Unverified
Exploring Generalized Gait Recognition: Reducing Redundancy and Noise within Indoor and Outdoor Datasets	May 21, 2025	Dataset DistillationGait Recognition	CodeCode Available
Beyond Modality Collapse: Representations Blending for Multimodal Dataset Distillation	May 16, 2025	cross-modal alignmentDataset Distillation	—Unverified
Leveraging Multi-Modal Information to Enhance Dataset Distillation	May 13, 2025	Dataset DistillationObject	—Unverified
Dataset Distillation with Probabilistic Latent Features	May 10, 2025	Dataset Distillation	—Unverified
Video Dataset Condensation with Diffusion Models	May 10, 2025	Computational EfficiencyDataset Condensation	—Unverified
UniDetox: Universal Detoxification of Large Language Models via Dataset Distillation	Apr 29, 2025	Dataset DistillationLanguage Modeling	CodeCode Available
Latent Video Dataset Distillation	Apr 23, 2025	Dataset DistillationDiversity	—Unverified
Distribution-aware Dataset Distillation for Efficient Image Restoration	Apr 21, 2025	4kDataset Distillation	—Unverified
Knowledge Distillation and Dataset Distillation of Large Language Models: Emerging Trends, Challenges, and Future Directions	Apr 20, 2025	Dataset DistillationDiversity	—Unverified
Permutation-Invariant and Orientation-Aware Dataset Distillation for 3D Point Clouds	Mar 28, 2025	Dataset Distillation	—Unverified
Curriculum Coarse-to-Fine Selection for High-IPC Dataset Distillation	Mar 24, 2025	Dataset Distillation	CodeCode Available
Generative Dataset Distillation using Min-Max Diffusion Model	Mar 24, 2025	Dataset DistillationDiversity	—Unverified
Enhancing Dataset Distillation via Non-Critical Region Refinement	Mar 24, 2025	Dataset DistillationTransfer Learning	CodeCode Available
Dataset Distillation for Quantum Neural Networks	Mar 23, 2025	Dataset Distillation	—Unverified
Finding Stable Subnetworks at Initialization with Dataset Distillation	Mar 23, 2025	Dataset DistillationLinear Mode Connectivity	—Unverified
Robust Dataset Distillation by Matching Adversarial Trajectories	Mar 15, 2025	Adversarial RobustnessDataset Distillation	—Unverified
Understanding Dataset Distillation via Spectral Filtering	Mar 3, 2025	Dataset DistillationFeature Correlation	—Unverified
Secure Federated Data Distillation	Feb 19, 2025	Dataset DistillationPrivacy Preserving	—Unverified
Does Training with Synthetic Data Truly Protect Privacy?	Feb 18, 2025	Data-free Knowledge DistillationDataset Distillation	CodeCode Available
The Evolution of Dataset Distillation: Toward Scalable and Generalizable Solutions	Feb 8, 2025	Dataset DistillationSurvey	—Unverified
Trust-Aware Diversion for Data-Effective Distillation	Feb 7, 2025	Dataset DistillationModel Optimization	—Unverified
Dark Distillation: Backdooring Distilled Datasets without Accessing Raw Data	Feb 6, 2025	Dataset Distillation	—Unverified
TD3: Tucker Decomposition Based Dataset Distillation Method for Sequential Recommendation	Feb 5, 2025	Dataset DistillationMeta-Learning	CodeCode Available
Knowledge Hierarchy Guided Biological-Medical Dataset Distillation for Domain LLM Training	Jan 25, 2025	Dataset DistillationQuestion Answering	—Unverified

Show:10 25 50

← PrevPage 4 of 9Next →

No leaderboard results yet.