Data Augmentation

Data augmentation involves techniques used for increasing the amount of data, based on different modifications, to expand the amount of examples in the original dataset. Data augmentation not only helps to grow the dataset but it also increases the diversity of the dataset. When training machine learning models, data augmentation acts as a regularizer and helps to avoid overfitting.

Data augmentation techniques have been found useful in domains like NLP and computer vision. In computer vision, transformations like cropping, flipping, and rotation are used. In NLP, data augmentation techniques can include swapping, deletion, random insertion, among others.

Papers

Recently Added Most Hyped Most Active Needs Verification Most Verified

Showing 101–150 of 8378 papers

Title	Date	Tasks	Status	Hype
NoisyRollout: Reinforcing Visual Reasoning with Data Augmentation	Apr 17, 2025	Data AugmentationDiversity	CodeCode Available	2
Efficient Training of Language Models to Fill in the Middle	Jul 28, 2022	Data Augmentation	CodeCode Available	2
Enhance Then Search: An Augmentation-Search Strategy with Foundation Models for Cross-Domain Few-Shot Object Detection	Apr 6, 2025	Cross-Domain Few-ShotCross-Domain Few-Shot Object Detection	CodeCode Available	2
Fast-BEV: A Fast and Strong Bird's-Eye View Perception Baseline	Jan 29, 2023	Data AugmentationLightweight Deployment	CodeCode Available	2
Effective Data Augmentation With Diffusion Models	Feb 7, 2023	Data AugmentationDiversity	CodeCode Available	2
PolarMix: A General Data Augmentation Technique for LiDAR Point Clouds	Jul 30, 2022	3D Object Detection3D Unsupervised Domain Adaptation	CodeCode Available	2
EarthLoc: Astronaut Photography Localization by Indexing Earth from Space	Mar 11, 2024	Data AugmentationDisaster Response	CodeCode Available	2
MuggleMath: Assessing the Impact of Query and Response Augmentation on Math Reasoning	Oct 9, 2023	Arithmetic ReasoningData Augmentation	CodeCode Available	2
Random Erasing Data Augmentation	Aug 16, 2017	Data AugmentationGeneral Classification	CodeCode Available	2
RAW-Adapter: Adapting Pre-trained Visual Model to Camera RAW Images and A Benchmark	Mar 21, 2025	Data Augmentation	CodeCode Available	2
EDA: Easy Data Augmentation Techniques for Boosting Performance on Text Classification Tasks	Jan 31, 2019	Data AugmentationGeneral Classification	CodeCode Available	2
Diffusion Models for Tabular Data: Challenges, Current Progress, and Future Directions	Feb 24, 2025	Data AugmentationImage Generation	CodeCode Available	2
Revisiting Adversarial Training under Long-Tailed Distributions	Mar 15, 2024	Adversarial DefenseData Augmentation	CodeCode Available	2
RL-ADN: A High-Performance Deep Reinforcement Learning Environment for Optimal Energy Storage Systems Dispatch in Active Distribution Networks	Aug 7, 2024	Computational EfficiencyData Augmentation	CodeCode Available	2
A Survey on Diffusion Models for Recommender Systems	Sep 8, 2024	Data AugmentationRecommendation Systems	CodeCode Available	2
Delving into the Trajectory Long-tail Distribution for Muti-object Tracking	Mar 7, 2024	Data AugmentationMulti-Object Tracking	CodeCode Available	2
MolScribe: Robust Molecular Structure Recognition with Image-To-Graph Generation	May 28, 2022	Data AugmentationGraph Generation	CodeCode Available	2
DiverGen: Improving Instance Segmentation by Learning Wider Data Distribution with More Diverse Generative Data	May 16, 2024	Data AugmentationDiversity	CodeCode Available	2
EfficientTrain: Exploring Generalized Curriculum Learning for Training Visual Backbones	Nov 17, 2022	Data AugmentationSelf-Supervised Learning	CodeCode Available	2
Saturn: Sample-efficient Generative Molecular Design using Memory Manipulation	May 27, 2024	Data AugmentationDrug Discovery	CodeCode Available	2
Fast-BEV: Towards Real-time On-vehicle Bird's-Eye View Perception	Jan 19, 2023	Autonomous DrivingData Augmentation	CodeCode Available	2
Understanding the Tricks of Deep Learning in Medical Image Segmentation: Challenges and Future Directions	Sep 21, 2022	Data AugmentationDomain Adaptation	CodeCode Available	2
Self-supervised Contrastive Representation Learning for Semi-supervised Time-Series Classification	Aug 13, 2022	Contrastive LearningData Augmentation	CodeCode Available	2
Shadowcast: Stealthy Data Poisoning Attacks Against Vision-Language Models	Feb 5, 2024	Data AugmentationData Poisoning	CodeCode Available	2
DD-Ranking: Rethinking the Evaluation of Dataset Distillation	May 19, 2025	Data AugmentationData Compression	CodeCode Available	2
SkillMimic-V2: Learning Robust and Generalizable Interaction Skills from Sparse and Noisy Demonstrations	May 4, 2025	Data Augmentation	CodeCode Available	2
Deep learning for time series classification	Oct 1, 2020	Activity RecognitionClassification	CodeCode Available	2
Data augmentation and multimodal learning for predicting drug response in patient-derived xenografts from gene expressions and histology images	Apr 25, 2022	Data AugmentationDrug Response Prediction	CodeCode Available	2
Conditional Diffusion Models for Semantic 3D Brain MRI Synthesis	May 29, 2023	Data AugmentationImage Generation	CodeCode Available	2
Data is all you need: Finetuning LLMs for Chip Design via an Automated design-data augmentation framework	Mar 17, 2024	AllData Augmentation	CodeCode Available	2
Deep PCB To COCO Convertor	May 1, 2022	ClassificationData Augmentation	CodeCode Available	2
BOP Challenge 2020 on 6D Object Localization	Sep 15, 2020	6D Pose Estimation6D Pose Estimation using RGB	CodeCode Available	2
BooW-VTON: Boosting In-the-Wild Virtual Try-On via Mask-Free Pseudo Data Training	Aug 12, 2024	Data AugmentationVirtual Try-on	CodeCode Available	2
BWFormer: Building Wireframe Reconstruction from Airborne LiDAR Point Cloud with Transformer	Jan 1, 2025	Data Augmentation	CodeCode Available	2
CodeS: Towards Building Open-source Language Models for Text-to-SQL	Feb 26, 2024	Data AugmentationDiagnostic	CodeCode Available	2
Composed Multi-modal Retrieval: A Survey of Approaches and Applications	Mar 3, 2025	Cross-Modal RetrievalData Augmentation	CodeCode Available	2
BirdNET: A deep learning solution for avian diversity monitoring	Jan 27, 2021	Data AugmentationDeep Learning	CodeCode Available	2
BEVDet: High-performance Multi-camera 3D Object Detection in Bird-Eye-View	Dec 22, 2021	3D Object DetectionAutonomous Driving	CodeCode Available	2
BiRP: Learning Robot Generalized Bimanual Coordination using Relative Parameterization Method on Human Demonstration	Jul 12, 2023	Data Augmentation	CodeCode Available	2
Decoupling Representation Learning from Reinforcement Learning	Sep 14, 2020	Data AugmentationDeep Reinforcement Learning	CodeCode Available	2
Calib3D: Calibrating Model Preferences for Reliable 3D Scene Understanding	Mar 25, 2024	Data AugmentationScene Understanding	CodeCode Available	2
AeroGen: Enhancing Remote Sensing Object Detection with Diffusion-Driven Data Generation	Nov 23, 2024	Data AugmentationDiversity	CodeCode Available	2
Authorship Obfuscation in Multilingual Machine-Generated Text Detection	Jan 15, 2024	Adversarial RobustnessBenchmarking	CodeCode Available	2
Automated Self-Supervised Learning for Recommendation	Mar 14, 2023	Collaborative FilteringContrastive Learning	CodeCode Available	2
Addressing Concept Shift in Online Time Series Forecasting: Detect-then-Adapt	Mar 22, 2024	Data AugmentationTime Series	CodeCode Available	2
Depth Field Networks for Generalizable Multi-view Scene Representation	Jul 28, 2022	Data AugmentationDepth Estimation	CodeCode Available	2
Augraphy: A Data Augmentation Library for Document Images	Aug 30, 2022	Data AugmentationDenoising	CodeCode Available	2
A Versatile Framework for Multi-scene Person Re-identification	Mar 17, 2024	Data AugmentationPerson Re-Identification	CodeCode Available	2
EdgeYOLO: An Edge-Real-Time Object Detector	Feb 15, 2023	Data AugmentationEdge-computing	CodeCode Available	2
Cap4Video: What Can Auxiliary Captions Do for Text-Video Retrieval?	Dec 31, 2022	Data AugmentationRetrieval	CodeCode Available	2

Show:10 25 50

← PrevPage 3 of 168Next →

All datasets ImageNet CIFAR-10 GA1457

Benchmark Results

#	Model	Metric	Claimed	Verified	Status
1	DeiT-B (+MixPro)	Accuracy (%)	82.9	—	Unverified
2	ResNet-200 (DeepAA)	Accuracy (%)	81.32	—	Unverified
3	DeiT-S (+MixPro)	Accuracy (%)	81.3	—	Unverified
4	ResNet-200 (Fast AA)	Accuracy (%)	80.6	—	Unverified
5	ResNet-200 (UA)	Accuracy (%)	80.4	—	Unverified
6	ResNet-200 (AA)	Accuracy (%)	80	—	Unverified
7	ResNet-50 (DeepAA)	Accuracy (%)	78.3	—	Unverified
8	ResNet-50 (TA wide)	Accuracy (%)	78.07	—	Unverified
9	ResNet-50 (LoRot-E)	Accuracy (%)	77.72	—	Unverified
10	ResNet-50 (LoRot-I)	Accuracy (%)	77.71	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	WideResNet-40-2 (Faster AA)	Percentage error	3.7	—	Unverified
2	Shake-Shake (26 2×32d) (Faster AA)	Percentage error	2.7	—	Unverified
3	WideResNet-28-10 (Faster AA)	Percentage error	2.6	—	Unverified
4	Shake-Shake (26 2×112d) (Faster AA)	Percentage error	2	—	Unverified
5	Shake-Shake (26 2×96d) (Faster AA)	Percentage error	2	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	DiffAug	Classification Accuracy	92.7	—	Unverified
2	PaCMAP	Classification Accuracy	85.3	—	Unverified
3	hNNE	Classification Accuracy	77.4	—	Unverified
4	TopoAE	Classification Accuracy	74.6	—	Unverified