Dataset Generation

The task involves enhancing the training of target application (e.g. autonomous driving systems) by generating datasets of diverse and critical elements (e.g. traffic scenarios). Traditional methods rely on expensive and limited datasets, which often fail to capture rare but essential situations that can pose risks during testing.

Papers

Recently Added Most Hyped Most Active Needs Verification Most Verified

Showing 51–75 of 308 papers

Title	Date	Tasks	Status	Hype	Score
Dataset Diffusion: Diffusion-based Synthetic Dataset Generation for Pixel-Level Semantic Segmentation	Sep 25, 2023	Dataset GenerationSegmentation	CodeCode Available	1	5
ICM-Assistant: Instruction-tuning Multimodal Large Language Models for Rule-based Explainable Image Content Moderation	Dec 24, 2024	Dataset Generation	CodeCode Available	1	5
Bounding Box-Guided Diffusion for Synthesizing Industrial Images and Segmentation Map	May 6, 2025	Dataset GenerationSegmentation	CodeCode Available	1	5
HM3D-ABO: A Photo-realistic Dataset for Object-centric Multi-view 3D Reconstruction	Jun 24, 2022	3D ReconstructionCamera Pose Estimation	CodeCode Available	1	5
Actionet: An Interactive End-To-End Platform For Task-Based Data Collection And Augmentation In 3D Environment	Oct 3, 2020	Dataset GenerationTask Planning	CodeCode Available	1	5
Afro-MNIST: Synthetic generation of MNIST-style datasets for low-resource languages	Sep 28, 2020	BIG-bench Machine LearningDataset Generation	CodeCode Available	1	5
ColabSfM: Collaborative Structure-from-Motion by Point Cloud Registration	Mar 21, 2025	Dataset GenerationPoint Cloud Registration	CodeCode Available	1	5
Cephalo: Multi-Modal Vision-Language Models for Bio-Inspired Materials Analysis and Design	May 29, 2024	Dataset GenerationImage to text	CodeCode Available	1	5
MK-SQuIT: Synthesizing Questions using Iterative Template-filling	Nov 4, 2020	Dataset GenerationMachine Translation	CodeCode Available	1	5
ViWi Vision-Aided mmWave Beam Tracking: Dataset, Task, and Baseline Solutions	Feb 6, 2020	Dataset Generation	CodeCode Available	1	5
Chip Placement with Diffusion Models	Jul 17, 2024	Dataset GenerationDenoising	CodeCode Available	1	5
Learning to Answer Visual Questions from Web Videos	May 10, 2022	Dataset GenerationQuestion Answering	CodeCode Available	1	5
OpenLS-DGF: An Adaptive Open-Source Dataset Generation Framework for Machine Learning Tasks in Logic Synthesis	Nov 14, 2024	Dataset Generation	CodeCode Available	1	5
LIQUID: A Framework for List Question Answering Dataset Generation	Feb 3, 2023	Dataset GenerationQuestion Answering	CodeCode Available	1	5
MORSE-500: A Programmatically Controllable Video Benchmark to Stress-Test Multimodal Reasoning	Jun 5, 2025	Dataset GenerationMathematical Problem-Solving	CodeCode Available	1	5
LLMaAA: Making Large Language Models as Active Annotators	Oct 30, 2023	Active LearningDataset Generation	CodeCode Available	1	5
NeuroGraph: Benchmarks for Graph Machine Learning in Brain Connectomics	Jun 9, 2023	BenchmarkingDataset Generation	CodeCode Available	1	5
ProGen: Progressive Zero-shot Dataset Generation via In-context Feedback	Oct 22, 2022	Data-free Knowledge DistillationDataset Generation	CodeCode Available	1	5
CySecBench: Generative AI-based CyberSecurity-focused Prompt Dataset for Benchmarking Large Language Models	Jan 2, 2025	BenchmarkingComputer Security	CodeCode Available	1	5
SynTable: A Synthetic Data Generation Pipeline for Unseen Object Amodal Instance Segmentation of Cluttered Tabletop Scenes	Jul 14, 2023	Amodal Instance SegmentationDataset Generation	CodeCode Available	1	5
JAPAGEN: Efficient Few/Zero-shot Learning via Japanese Training Dataset Generation with LLM	Dec 9, 2024	Dataset GenerationZero-Shot Learning	CodeCode Available	0	5
IrrMap: A Large-Scale Comprehensive Dataset for Irrigation Method Mapping	May 13, 2025	Dataset Generation	CodeCode Available	0	5
A Semi-Synthetic Dataset Generation Framework for Causal Inference in Recommender Systems	Feb 23, 2022	Causal InferenceDataset Generation	CodeCode Available	0	5
JABBERWOCK: A Tool for WebAssembly Dataset Generation and Its Application to Malicious Website Detection	Jun 9, 2023	Dataset Generation	CodeCode Available	0	5
KoCoSa: Korean Context-aware Sarcasm Detection Dataset	Feb 22, 2024	Dataset GenerationSarcasm Detection	CodeCode Available	0	5

Show:10 25 50

← PrevPage 3 of 13Next →

No leaderboard results yet.