Data Augmentation

Data augmentation involves techniques used for increasing the amount of data, based on different modifications, to expand the amount of examples in the original dataset. Data augmentation not only helps to grow the dataset but it also increases the diversity of the dataset. When training machine learning models, data augmentation acts as a regularizer and helps to avoid overfitting.

Data augmentation techniques have been found useful in domains like NLP and computer vision. In computer vision, transformations like cropping, flipping, and rotation are used. In NLP, data augmentation techniques can include swapping, deletion, random insertion, among others.

Papers

Recently Added Most Hyped Most Active Needs Verification Most Verified

Showing 101–150 of 8378 papers

Title	Date	Tasks	Status	Hype
Boosting Automatic Exercise Evaluation Through Musculoskeletal Simulation-Based IMU Data Augmentation	May 30, 2025	Data Augmentation	—Unverified	0
A Flat Minima Perspective on Understanding Augmentations and Model Robustness	May 30, 2025	Adversarial RobustnessData Augmentation	—Unverified	0
QGAN-based data augmentation for hybrid quantum-classical neural networks	May 30, 2025	Data AugmentationQuantum Machine Learning	—Unverified	0
Adaptive Spatial Augmentation for Semi-supervised Semantic Segmentation	May 29, 2025	Data AugmentationDiversity	—Unverified	0
Pseudo Multi-Source Domain Generalization: Bridging the Gap Between Single and Multi-Source Domain Generalization	May 29, 2025	Data AugmentationDomain Generalization	CodeCode Available	0
AMBER: Adaptive Mesh Generation by Iterative Mesh Resolution Prediction	May 29, 2025	Computational EfficiencyData Augmentation	CodeCode Available	0
Individualised Counterfactual Examples Using Conformal Prediction Intervals	May 28, 2025	Binary ClassificationConformal Prediction	—Unverified	0
Improving QA Efficiency with DistilBERT: Fine-Tuning and Inference on mobile Intel CPUs	May 28, 2025	Computational EfficiencyCPU	—Unverified	0
Leveraging Diffusion Models for Synthetic Data Augmentation in Protein Subcellular Localization Classification	May 28, 2025	Data AugmentationDenoising	—Unverified	0
PS4PRO: Pixel-to-pixel Supervision for Photorealistic Rendering and Optimization	May 28, 2025	3D geometry3D Reconstruction	—Unverified	0
Cascaded 3D Diffusion Models for Whole-body 3D 18-F FDG PET/CT synthesis from Demographics	May 28, 2025	Data AugmentationSuper-Resolution	—Unverified	0
Supervised Contrastive Learning for Ordinal Engagement Measurement	May 27, 2025	Contrastive LearningData Augmentation	—Unverified	0
Towards Pretraining Robust ASR Foundation Model with Acoustic-Aware Data Augmentation	May 27, 2025	Automatic Speech RecognitionAutomatic Speech Recognition (ASR)	—Unverified	0
RoBiS: Robust Binary Segmentation for High-Resolution Industrial Images	May 27, 2025	Anomaly DetectionBinarization	CodeCode Available	1
Enhancing Contrastive Learning-based Electrocardiogram Pretrained Model with Patient Memory Queue	May 26, 2025	Contrastive LearningData Augmentation	CodeCode Available	0
Detection of Suicidal Risk on Social Media: A Hybrid Model	May 26, 2025	Data AugmentationMulti-class Classification	—Unverified	0
ControlTac: Force- and Position-Controlled Tactile Data Augmentation with a Single Reference Image	May 26, 2025	Data AugmentationPosition	—Unverified	0
Lorentz Local Canonicalization: How to Make Any Network Lorentz-Equivariant	May 26, 2025	Data Augmentation	—Unverified	0
Improving Heart Rejection Detection in XPCI Images Using Synthetic Data Augmentation	May 26, 2025	Data AugmentationSynthetic Data Generation	—Unverified	0
A Regularization-Guided Equivariant Approach for Image Restoration	May 26, 2025	Data AugmentationImage Restoration	CodeCode Available	1
LangDAug: Langevin Data Augmentation for Multi-Source Domain Generalization in Medical Image Segmentation	May 26, 2025	Data AugmentationDomain Generalization	CodeCode Available	1
REARANK: Reasoning Re-ranking Agent via Reinforcement Learning	May 26, 2025	Data AugmentationInformation Retrieval	CodeCode Available	1
Revolutionizing Wildfire Detection with Convolutional Neural Networks: A VGG16 Model Approach	May 26, 2025	Binary ClassificationData Augmentation	—Unverified	0
Learn Beneficial Noise as Graph Augmentation	May 25, 2025	Contrastive LearningData Augmentation	—Unverified	0
Behavior Injection: Preparing Language Models for Reinforcement Learning	May 25, 2025	Data Augmentationreinforcement-learning	CodeCode Available	1
A Joint Learning Framework with Feature Reconstruction and Prediction for Incomplete Satellite Image Time Series in Agricultural Semantic Segmentation	May 25, 2025	Crop ClassificationData Augmentation	CodeCode Available	0
How Do Images Align and Complement LiDAR? Towards a Harmonized Multi-modal 3D Panoptic Segmentation	May 25, 2025	3D Panoptic SegmentationData Augmentation	CodeCode Available	1
The Quest for Efficient Reasoning: A Data-Centric Benchmark to CoT Distillation	May 24, 2025	Data Augmentation	—Unverified	0
Building a Functional Machine Translation Corpus for Kpelle	May 24, 2025	Data AugmentationLanguage Modelling	—Unverified	0
Beyond Domain Randomization: Event-Inspired Perception for Visually Robust Adversarial Imitation from Videos	May 24, 2025	Data Augmentation	CodeCode Available	0
Large language model as user daily behavior data generator: balancing population diversity and individual personality	May 23, 2025	Data AugmentationDiversity	—Unverified	0
Supervised Graph Contrastive Learning for Gene Regulatory Network	May 23, 2025	Contrastive LearningData Augmentation	—Unverified	0
What Do You Need for Diverse Trajectory Stitching in Diffusion Planning?	May 23, 2025	Behavioural cloningData Augmentation	—Unverified	0
Audio-to-Audio Emotion Conversion With Pitch And Duration Style Transfer	May 23, 2025	Data AugmentationEmotion Recognition	—Unverified	0
Maximum Total Correlation Reinforcement Learning	May 22, 2025	Data AugmentationInductive Bias	CodeCode Available	0
Efficient Prototype Consistency Learning in Medical Image Segmentation via Joint Uncertainty and Data Augmentation	May 22, 2025	Data AugmentationImage Segmentation	—Unverified	0
Swin Transformer for Robust CGI Images Detection: Intra- and Inter-Dataset Analysis across Multiple Color Spaces	May 22, 2025	Data AugmentationDomain Generalization	—Unverified	0
Does Synthetic Data Help Named Entity Recognition for Low-Resource Languages?	May 22, 2025	Data Augmentationnamed-entity-recognition	—Unverified	0
Human-centered Interactive Learning via MLLMs for Text-to-Image Person Re-identification	May 21, 2025	Data AugmentationLarge Language Model	—Unverified	0
15,500 Seconds: Lean UAV Classification Leveraging PEFT and Pre-Trained Networks	May 21, 2025	Audio ClassificationData Augmentation	CodeCode Available	0
Aug2Search: Enhancing Facebook Marketplace Search with LLM-Generated Synthetic Data Augmentation	May 21, 2025	Data AugmentationDiversity	—Unverified	0
Data Augmentation and Resolution Enhancement using GANs and Diffusion Models for Tree Segmentation	May 21, 2025	Data AugmentationDomain Adaptation	—Unverified	0
Geometrically Regularized Transfer Learning with On-Manifold and Off-Manifold Perturbation	May 21, 2025	Data AugmentationDomain Generalization	—Unverified	0
GAMA: Geometry-Aware Manifold Alignment via Structured Adversarial Perturbations for Robust Domain Adaptation	May 21, 2025	Data AugmentationDomain Adaptation	—Unverified	0
GSDFuse: Capturing Cognitive Inconsistencies from Multi-Dimensional Weak Signals in Social Media Steganalysis	May 20, 2025	Data AugmentationFeature Engineering	CodeCode Available	0
Challenges and Limitations in the Synthetic Generation of mHealth Sensor Data	May 20, 2025	Data AugmentationSynthetic Data Generation	—Unverified	0
Truth or Twist? Optimal Model Selection for Reliable Label Flipping Evaluation in LLM-based Counterfactuals	May 20, 2025	counterfactualData Augmentation	—Unverified	0
Mixing times of data-augmentation Gibbs samplers for high-dimensional probit regression	May 20, 2025	Data Augmentation	CodeCode Available	0
Data-Efficient Hate Speech Detection via Cross-Lingual Nearest Neighbor Retrieval with Limited Labeled Data	May 20, 2025	Cross-Lingual TransferData Augmentation	—Unverified	0
SSPS: Self-Supervised Positive Sampling for Robust Self-Supervised Speaker Verification	May 20, 2025	Data AugmentationSelf-Supervised Learning	—Unverified	0

Show:10 25 50

← PrevPage 3 of 168Next →

All datasets ImageNet CIFAR-10 GA1457

Benchmark Results

#	Model	Metric	Claimed	Verified	Status
1	DeiT-B (+MixPro)	Accuracy (%)	82.9	—	Unverified
2	ResNet-200 (DeepAA)	Accuracy (%)	81.32	—	Unverified
3	DeiT-S (+MixPro)	Accuracy (%)	81.3	—	Unverified
4	ResNet-200 (Fast AA)	Accuracy (%)	80.6	—	Unverified
5	ResNet-200 (UA)	Accuracy (%)	80.4	—	Unverified
6	ResNet-200 (AA)	Accuracy (%)	80	—	Unverified
7	ResNet-50 (DeepAA)	Accuracy (%)	78.3	—	Unverified
8	ResNet-50 (TA wide)	Accuracy (%)	78.07	—	Unverified
9	ResNet-50 (LoRot-E)	Accuracy (%)	77.72	—	Unverified
10	ResNet-50 (LoRot-I)	Accuracy (%)	77.71	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	WideResNet-40-2 (Faster AA)	Percentage error	3.7	—	Unverified
2	Shake-Shake (26 2×32d) (Faster AA)	Percentage error	2.7	—	Unverified
3	WideResNet-28-10 (Faster AA)	Percentage error	2.6	—	Unverified
4	Shake-Shake (26 2×112d) (Faster AA)	Percentage error	2	—	Unverified
5	Shake-Shake (26 2×96d) (Faster AA)	Percentage error	2	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	DiffAug	Classification Accuracy	92.7	—	Unverified
2	PaCMAP	Classification Accuracy	85.3	—	Unverified
3	hNNE	Classification Accuracy	77.4	—	Unverified
4	TopoAE	Classification Accuracy	74.6	—	Unverified