Dataset Distillation

Dataset distillation is the task of synthesizing a small dataset such that models trained on it achieve high performance on the original large dataset. A dataset distillation algorithm takes as input a large real dataset to be distilled (training set), and outputs a small synthetic distilled dataset, which is evaluated via testing models trained on this distilled dataset on a separate real dataset (validation/test set). A good small distilled dataset is not only useful in dataset understanding, but has various applications (e.g., continual learning, privacy, neural architecture search, etc.).

Papers

Recently Added Most Hyped Most Active Needs Verification Most Verified

Showing 101–125 of 216 papers

Title	Date	Tasks	Status
On Learning Representations for Tabular Data Distillation	Jan 23, 2025	Dataset DistillationRepresentation Learning	—Unverified
Class-Imbalanced-Aware Adaptive Dataset Distillation for Scalable Pretrained Model on Credit Scoring	Jan 18, 2025	Dataset DistillationQuestion Answering	—Unverified
Dataset Distillation as Pushforward Optimal Quantization	Jan 13, 2025	Dataset DistillationDecoder	—Unverified
FocusDD: Real-World Scene Infusion for Robust Dataset Distillation	Jan 11, 2025	Dataset Distillationobject-detection	—Unverified
Generative Dataset Distillation Based on Self-knowledge Distillation	Jan 8, 2025	Dataset DistillationKnowledge Distillation	—Unverified
Hierarchical Features Matter: A Deep Exploration of Progressive Parameterization Method for Dataset Distillation	Jan 1, 2025	Dataset Distillation	—Unverified
OPTICAL: Leveraging Optimal Transport for Contribution Allocation in Dataset Distillation	Jan 1, 2025	Dataset Distillation	—Unverified
Towards Universal Dataset Distillation via Task-Driven Diffusion	Jan 1, 2025	Dataset Distillationimage-classification	—Unverified
Distilling Desired Comments for Enhanced Code Review with Large Language Models	Dec 29, 2024	Dataset DistillationHallucination	—Unverified
Adaptive Dataset Quantization	Dec 22, 2024	Contrastive LearningDataset Distillation	—Unverified
Going Beyond Feature Similarity: Effective Dataset Distillation based on Class-Aware Conditional Mutual Information	Dec 13, 2024	Dataset Distillation	CodeCode Available
Efficient Dataset Distillation via Diffusion-Driven Patch Selection for Improved Generalization	Dec 13, 2024	Dataset Distillation	—Unverified
Diffusion-Augmented Coreset Expansion for Scalable Dataset Distillation	Dec 5, 2024	Bilevel OptimizationComputational Efficiency	—Unverified
FairDD: Fair Dataset Distillation via Synchronized Matching	Nov 29, 2024	Dataset DistillationFairness	—Unverified
Video Set Distillation: Information Diversification and Temporal Densification	Nov 28, 2024	Dataset Distillation	—Unverified
Data-to-Model Distillation: Data-Efficient Learning Framework	Nov 19, 2024	Computational EfficiencyDataset Distillation	CodeCode Available
Color-Oriented Redundancy Reduction in Dataset Distillation	Nov 18, 2024	Dataset Distillation	CodeCode Available
Dataset Distillers Are Good Label Denoisers In the Wild	Nov 18, 2024	Dataset DistillationDenoising	CodeCode Available
Distill the Best, Ignore the Rest: Improving Dataset Distillation with Loss-Value-Based Pruning	Nov 18, 2024	Dataset Distillation	CodeCode Available
BEARD: Benchmarking the Adversarial Robustness for Dataset Distillation	Nov 14, 2024	Adversarial AttackAdversarial Robustness	CodeCode Available
Robust Offline Reinforcement Learning for Non-Markovian Decision Processes	Nov 12, 2024	Dataset Distillationreinforcement-learning	—Unverified
Privacy-Preserving Federated Learning via Dataset Distillation	Oct 25, 2024	AttributeDataset Distillation	—Unverified
Risk of Text Backdoor Attacks Under Dataset Distillation	Oct 17, 2024	Backdoor AttackDataset Distillation	CodeCode Available
Enhancing Dataset Distillation via Label Inconsistency Elimination and Learning Pattern Refinement	Oct 17, 2024	Dataset Distillation	CodeCode Available
Teddy: Efficient Large-Scale Dataset Distillation via Taylor-Approximated Matching	Oct 10, 2024	Dataset Distillation	CodeCode Available

Show:10 25 50

← PrevPage 5 of 9Next →

No leaderboard results yet.