Dataset Distillation

Dataset distillation is the task of synthesizing a small dataset such that models trained on it achieve high performance on the original large dataset. A dataset distillation algorithm takes as input a large real dataset to be distilled (training set), and outputs a small synthetic distilled dataset, which is evaluated via testing models trained on this distilled dataset on a separate real dataset (validation/test set). A good small distilled dataset is not only useful in dataset understanding, but has various applications (e.g., continual learning, privacy, neural architecture search, etc.).

Papers

Recently Added Most Hyped Most Active Needs Verification Most Verified

Showing 51–75 of 216 papers

Title	Date	Tasks	Status	Hype
OPTICAL: Leveraging Optimal Transport for Contribution Allocation in Dataset Distillation	Jan 1, 2025	Dataset Distillation	—Unverified	0
Towards Universal Dataset Distillation via Task-Driven Diffusion	Jan 1, 2025	Dataset Distillationimage-classification	—Unverified	0
A Large-Scale Study on Video Action Dataset Condensation	Dec 30, 2024	Action RecognitionDataset Condensation	CodeCode Available	1
Distilling Desired Comments for Enhanced Code Review with Large Language Models	Dec 29, 2024	Dataset DistillationHallucination	—Unverified	0
Adaptive Dataset Quantization	Dec 22, 2024	Contrastive LearningDataset Distillation	—Unverified	0
Going Beyond Feature Similarity: Effective Dataset Distillation based on Class-Aware Conditional Mutual Information	Dec 13, 2024	Dataset Distillation	CodeCode Available	0
Efficient Dataset Distillation via Diffusion-Driven Patch Selection for Improved Generalization	Dec 13, 2024	Dataset Distillation	—Unverified	0
Diffusion-Augmented Coreset Expansion for Scalable Dataset Distillation	Dec 5, 2024	Bilevel OptimizationComputational Efficiency	—Unverified	0
FairDD: Fair Dataset Distillation via Synchronized Matching	Nov 29, 2024	Dataset DistillationFairness	—Unverified	0
DELT: A Simple Diversity-driven EarlyLate Training for Dataset Distillation	Nov 29, 2024	Dataset DistillationDiversity	CodeCode Available	1
Video Set Distillation: Information Diversification and Temporal Densification	Nov 28, 2024	Dataset Distillation	—Unverified	0
Data-to-Model Distillation: Data-Efficient Learning Framework	Nov 19, 2024	Computational EfficiencyDataset Distillation	CodeCode Available	0
Distill the Best, Ignore the Rest: Improving Dataset Distillation with Loss-Value-Based Pruning	Nov 18, 2024	Dataset Distillation	CodeCode Available	0
Dataset Distillers Are Good Label Denoisers In the Wild	Nov 18, 2024	Dataset DistillationDenoising	CodeCode Available	0
Color-Oriented Redundancy Reduction in Dataset Distillation	Nov 18, 2024	Dataset Distillation	CodeCode Available	0
BEARD: Benchmarking the Adversarial Robustness for Dataset Distillation	Nov 14, 2024	Adversarial AttackAdversarial Robustness	CodeCode Available	0
Robust Offline Reinforcement Learning for Non-Markovian Decision Processes	Nov 12, 2024	Dataset Distillationreinforcement-learning	—Unverified	0
Privacy-Preserving Federated Learning via Dataset Distillation	Oct 25, 2024	AttributeDataset Distillation	—Unverified	0
Emphasizing Discriminative Features for Dataset Distillation in Complex Scenarios	Oct 22, 2024	Dataset Distillation	CodeCode Available	1
Are Large-scale Soft Labels Necessary for Large-scale Dataset Distillation?	Oct 21, 2024	Dataset DistillationDiversity	CodeCode Available	1
Risk of Text Backdoor Attacks Under Dataset Distillation	Oct 17, 2024	Backdoor AttackDataset Distillation	CodeCode Available	0
Enhancing Dataset Distillation via Label Inconsistency Elimination and Learning Pattern Refinement	Oct 17, 2024	Dataset Distillation	CodeCode Available	0
Teddy: Efficient Large-Scale Dataset Distillation via Taylor-Approximated Matching	Oct 10, 2024	Dataset Distillation	CodeCode Available	0
MetaDD: Boosting Dataset Distillation with Neural Network Architecture-Invariant Generalization	Oct 7, 2024	Dataset Distillation	—Unverified	0
Dataset Distillation via Knowledge Distillation: Towards Efficient Self-Supervised Pre-Training of Deep Networks	Oct 3, 2024	Dataset DistillationKnowledge Distillation	CodeCode Available	0

Show:10 25 50

← PrevPage 3 of 9Next →

No leaderboard results yet.