Data Augmentation

Data augmentation involves techniques used for increasing the amount of data, based on different modifications, to expand the amount of examples in the original dataset. Data augmentation not only helps to grow the dataset but it also increases the diversity of the dataset. When training machine learning models, data augmentation acts as a regularizer and helps to avoid overfitting.

Data augmentation techniques have been found useful in domains like NLP and computer vision. In computer vision, transformations like cropping, flipping, and rotation are used. In NLP, data augmentation techniques can include swapping, deletion, random insertion, among others.

Papers

Recently Added Most Hyped Most Active Needs Verification Most Verified

Showing 1–50 of 8378 papers

Title	Date	Tasks	Status	Hype
Pixel Perfect MegaMed: A Megapixel-Scale Vision-Language Foundation Model for Generating High Resolution Medical Images	Jul 17, 2025	Data AugmentationImage Generation	—Unverified	0
Overview of the TalentCLEF 2025: Skill and Job Title Intelligence for Human Capital Management	Jul 17, 2025	Contrastive LearningData Augmentation	—Unverified	0
Similarity-Guided Diffusion for Contrastive Sequential Recommendation	Jul 16, 2025	Contrastive LearningData Augmentation	—Unverified	0
Data Augmentation in Time Series Forecasting through Inverted Framework	Jul 15, 2025	Data AugmentationTime Series	—Unverified	0
Iceberg: Enhancing HLS Modeling with Synthetic Data	Jul 14, 2025	Data AugmentationHigh-Level Synthesis	CodeCode Available	0
AI-Enhanced Pediatric Pneumonia Detection: A CNN-Based Approach Using Data Augmentation and Generative Adversarial Networks (GANs)	Jul 13, 2025	ClassificationData Augmentation	CodeCode Available	0
FreeAudio: Training-Free Timing Planning for Controllable Long-Form Text-to-Audio Generation	Jul 11, 2025	Audio GenerationData Augmentation	—Unverified	0
Advancing Offline Handwritten Text Recognition: A Systematic Review of Data Augmentation and Generation Techniques	Jul 8, 2025	Data AugmentationHandwritten Text Recognition	—Unverified	0
Speech Quality Assessment Model Based on Mixture of Experts: System-Level Performance Enhancement and Utterance-Level Challenge Analysis	Jul 8, 2025	Data AugmentationMixture-of-Experts	—Unverified	0
PSAT: Pediatric Segmentation Approaches via Adult Augmentations and Transfer Learning	Jul 8, 2025	AnatomyContinual Learning	CodeCode Available	0
DS@GT at CheckThat! 2025: Detecting Subjectivity via Transfer-Learning and Corrective Data Augmentation	Jul 8, 2025	ARCData Augmentation	CodeCode Available	0
Semantic Certainty Assessment in Vector Retrieval Systems: A Novel Framework for Embedding Quality Evaluation	Jul 8, 2025	Data AugmentationQuantization	—Unverified	0
SenseShift6D: Multimodal RGB-D Benchmarking for Robust 6D Pose Estimation across Environment and Sensor Variations	Jul 8, 2025	6D Pose Estimation6D Pose Estimation using RGB	CodeCode Available	0
TigAug: Data Augmentation for Testing Traffic Light Detection in Autonomous Driving Systems	Jul 8, 2025	Autonomous DrivingData Augmentation	—Unverified	0
Evolution without Large Models: Training Language Model with Task Principles	Jul 8, 2025	Data AugmentationLanguage Modeling	—Unverified	0
Piggyback Camera: Easy-to-Deploy Visual Surveillance by Mobile Sensing on Commercial Robot Vacuums	Jul 7, 2025	Data Augmentation	—Unverified	0
DeRIS: Decoupling Perception and Cognition for Enhanced Referring Image Segmentation through Loopback Synergy	Jul 2, 2025	Data AugmentationGeneralized Referring Expression Segmentation	CodeCode Available	1
Diffusion Model-based Data Augmentation Method for Fetal Head Ultrasound Segmentation	Jun 30, 2025	Data AugmentationSegmentation	—Unverified	0
Unlasting: Unpaired Single-Cell Multi-Perturbation Estimation by Dual Conditional Diffusion Implicit Bridges	Jun 26, 2025	Data Augmentation	—Unverified	0
Robust Deep Learning for Myocardial Scar Segmentation in Cardiac MRI with Noisy Labels	Jun 26, 2025	Data Augmentation	CodeCode Available	0
HybridQ: Hybrid Classical-Quantum Generative Adversarial Network for Skin Disease Image Generation	Jun 26, 2025	Data AugmentationGenerative Adversarial Network	—Unverified	0
Enhancing Ambiguous Dynamic Facial Expression Recognition with Soft Label-based Data Augmentation	Jun 25, 2025	Data AugmentationDynamic Facial Expression Recognition	—Unverified	0
RAG-VisualRec: An Open Resource for Vision- and Text-Enhanced Retrieval-Augmented Generation in Recommendation	Jun 25, 2025	Collaborative FilteringData Augmentation	CodeCode Available	0
Leveraging AI Graders for Missing Score Imputation to Achieve Accurate Ability Estimation in Constructed-Response Tests	Jun 25, 2025	Data AugmentationImputation	—Unverified	0
Industrial Energy Disaggregation with Digital Twin-generated Dataset and Efficient Data Augmentation	Jun 25, 2025	Data AugmentationNon-Intrusive Load Monitoring	CodeCode Available	0
Cross-regularization: Adaptive Model Complexity through Validation Gradients	Jun 24, 2025	Data Augmentation	—Unverified	0
Machine-Learning-Assisted Photonic Device Development: A Multiscale Approach from Theory to Characterization	Jun 24, 2025	Active LearningBayesian Optimization	—Unverified	0
HARPT: A Corpus for Analyzing Consumers' Trust and Privacy Concerns in Mobile Health Apps	Jun 24, 2025	Data Augmentation	—Unverified	0
On the Robustness of Human-Object Interaction Detection against Distribution Shift	Jun 22, 2025	BenchmarkingData Augmentation	—Unverified	0
Dynamic Temporal Positional Encodings for Early Intrusion Detection in IoT	Jun 22, 2025	Computational EfficiencyData Augmentation	—Unverified	0
DRO-Augment Framework: Robustness by Synergizing Wasserstein Distributionally Robust Optimization and Data Augmentation	Jun 22, 2025	Adversarial AttackData Augmentation	—Unverified	0
Robust Training with Data Augmentation for Medical Imaging Classification	Jun 20, 2025	Data AugmentationDiagnostic	—Unverified	0
CopulaSMOTE: A Copula-Based Oversampling Approach for Imbalanced Classification in Diabetes Prediction	Jun 18, 2025	Data AugmentationDiabetes Prediction	—Unverified	0
Thinking in Directivity: Speech Large Language Model for Multi-Talker Directional Speech Recognition	Jun 17, 2025	Data AugmentationLanguage Modeling	—Unverified	0
Model compression using knowledge distillation with integrated gradients	Jun 17, 2025	Data AugmentationKnowledge Distillation	—Unverified	0
SCISSOR: Mitigating Semantic Bias through Cluster-Aware Siamese Networks for Robust Classification	Jun 17, 2025	Data AugmentationRobust classification	CodeCode Available	0
orGAN: A Synthetic Data Augmentation Pipeline for Simultaneous Generation of Surgical Images and Ground Truth Labels	Jun 17, 2025	Data AugmentationDiversity	—Unverified	0
Explainable Detection of Implicit Influential Patterns in Conversations via Data Augmentation	Jun 17, 2025	Data AugmentationMulti-Label Classification	—Unverified	0
Synthetic Data Augmentation for Table Detection: Re-evaluating TableNet's Performance with Automatically Generated Document Images	Jun 17, 2025	Data AugmentationTable Detection	—Unverified	0
Adaptive Data Augmentation for Thompson Sampling	Jun 17, 2025	Data AugmentationMulti-Armed Bandits	—Unverified	0
The Perception of Phase Intercept Distortion and its Application in Data Augmentation	Jun 17, 2025	Data Augmentation	—Unverified	0
Exploring Non-contrastive Self-supervised Representation Learning for Image-based Profiling	Jun 17, 2025	Data AugmentationDrug Discovery	—Unverified	0
Compositional Attribute Imbalance in Vision Datasets	Jun 17, 2025	AttributeData Augmentation	—Unverified	0
BlastDiffusion: A Latent Diffusion Model for Generating Synthetic Embryo Images to Address Data Scarcity in In Vitro Fertilization	Jun 16, 2025	Data AugmentationDiagnostic	—Unverified	0
PRO: Projection Domain Synthesis for CT Imaging	Jun 16, 2025	Data Augmentation	CodeCode Available	0
Understanding Learning Invariance in Deep Linear Networks	Jun 16, 2025	Data Augmentation	—Unverified	0
MultiViT2: A Data-augmented Multimodal Neuroimaging Prediction Framework via Latent Diffusion Model	Jun 16, 2025	Data AugmentationPrediction	—Unverified	0
Deep Diffusion Models and Unsupervised Hyperspectral Unmixing for Realistic Abundance Map Synthesis	Jun 16, 2025	BenchmarkingData Augmentation	—Unverified	0
SAGDA: Open-Source Synthetic Agriculture Data for Africa	Jun 16, 2025	Data Augmentation	CodeCode Available	0
Graph-Convolutional-Beta-VAE for Synthetic Abdominal Aorta Aneurysm Generation	Jun 16, 2025	Data AugmentationDiversity	—Unverified	0

Show:10 25 50

← PrevPage 1 of 168Next →

All datasets ImageNet CIFAR-10 GA1457

Benchmark Results

#	Model	Metric	Claimed	Verified	Status
1	DeiT-B (+MixPro)	Accuracy (%)	82.9	—	Unverified
2	ResNet-200 (DeepAA)	Accuracy (%)	81.32	—	Unverified
3	DeiT-S (+MixPro)	Accuracy (%)	81.3	—	Unverified
4	ResNet-200 (Fast AA)	Accuracy (%)	80.6	—	Unverified
5	ResNet-200 (UA)	Accuracy (%)	80.4	—	Unverified
6	ResNet-200 (AA)	Accuracy (%)	80	—	Unverified
7	ResNet-50 (DeepAA)	Accuracy (%)	78.3	—	Unverified
8	ResNet-50 (TA wide)	Accuracy (%)	78.07	—	Unverified
9	ResNet-50 (LoRot-E)	Accuracy (%)	77.72	—	Unverified
10	ResNet-50 (LoRot-I)	Accuracy (%)	77.71	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	WideResNet-40-2 (Faster AA)	Percentage error	3.7	—	Unverified
2	Shake-Shake (26 2×32d) (Faster AA)	Percentage error	2.7	—	Unverified
3	WideResNet-28-10 (Faster AA)	Percentage error	2.6	—	Unverified
4	Shake-Shake (26 2×112d) (Faster AA)	Percentage error	2	—	Unverified
5	Shake-Shake (26 2×96d) (Faster AA)	Percentage error	2	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	DiffAug	Classification Accuracy	92.7	—	Unverified
2	PaCMAP	Classification Accuracy	85.3	—	Unverified
3	hNNE	Classification Accuracy	77.4	—	Unverified
4	TopoAE	Classification Accuracy	74.6	—	Unverified