Data Augmentation

Data augmentation involves techniques used for increasing the amount of data, based on different modifications, to expand the amount of examples in the original dataset. Data augmentation not only helps to grow the dataset but it also increases the diversity of the dataset. When training machine learning models, data augmentation acts as a regularizer and helps to avoid overfitting.

Data augmentation techniques have been found useful in domains like NLP and computer vision. In computer vision, transformations like cropping, flipping, and rotation are used. In NLP, data augmentation techniques can include swapping, deletion, random insertion, among others.

Papers

Recently Added Most Hyped Most Active Needs Verification Most Verified

Showing 51–100 of 8378 papers

Title	Date	Tasks	Status	Hype
HSIGene: A Foundation Model For Hyperspectral Image Generation	Sep 19, 2024	Data AugmentationDenoising	CodeCode Available	2
FreeVC: Towards High-Quality Text-Free One-Shot Voice Conversion	Oct 27, 2022	Data Augmentationtext annotation	CodeCode Available	2
InPars: Data Augmentation for Information Retrieval using Large Language Models	Feb 10, 2022	Data AugmentationDiversity	CodeCode Available	2
Fixing the train-test resolution discrepancy: FixEfficientNet	Mar 18, 2020	Data AugmentationImage Classification	CodeCode Available	2
Generative Adversarial Network in Medical Imaging: A Review	Sep 19, 2018	Data AugmentationDomain Adaptation	CodeCode Available	2
Learn Beyond The Answer: Training Language Models with Reflection for Mathematical Reasoning	Jun 17, 2024	Data AugmentationMathematical Reasoning	CodeCode Available	2
LightGCL: Simple Yet Effective Graph Contrastive Learning for Recommendation	Feb 16, 2023	Contrastive LearningData Augmentation	CodeCode Available	2
LLaMAX: Scaling Linguistic Horizons of LLM by Enhancing Translation Capabilities Beyond 100 Languages	Jul 8, 2024	Data AugmentationTranslation	CodeCode Available	2
MindBridge: A Cross-Subject Brain Decoding Framework	Apr 11, 2024	Brain DecodingData Augmentation	CodeCode Available	2
Mind the Domain Gap: a Systematic Analysis on Bioacoustic Sound Event Detection	Mar 27, 2024	Data AugmentationDomain Adaptation	CodeCode Available	2
Mono-ViFI: A Unified Learning Framework for Self-supervised Single- and Multi-frame Monocular Depth Estimation	Jul 19, 2024	Data AugmentationDepth Estimation	CodeCode Available	2
Morphological Symmetries in Robotics	Feb 23, 2024	Data Augmentation	CodeCode Available	2
Identity Decoupling for Multi-Subject Personalization of Text-to-Image Models	Apr 5, 2024	Data Augmentation	CodeCode Available	2
LLMEmb: Large Language Model Can Be a Good Embedding Generator for Sequential Recommendation	Sep 30, 2024	AttributeCollaborative Filtering	CodeCode Available	2
Mustango: Toward Controllable Text-to-Music Generation	Nov 14, 2023	Data AugmentationDenoising	CodeCode Available	2
Enhancing the Utility of Privacy-Preserving Cancer Classification using Synthetic Data	Jul 17, 2024	Breast Cancer DetectionCancer Classification	CodeCode Available	2
1st Place Solutions for RxR-Habitat Vision-and-Language Navigation Competition (CVPR 2022)	Jun 23, 2022	Data AugmentationVision and Language Navigation	CodeCode Available	2
Exploring Color Invariance through Image-Level Ensemble Learning	Jan 19, 2024	Data AugmentationEnsemble Learning	CodeCode Available	2
Effective Data Augmentation With Diffusion Models	Feb 7, 2023	Data AugmentationDiversity	CodeCode Available	2
GuardReasoner-VL: Safeguarding VLMs via Reinforced Reasoning	May 16, 2025	Data Augmentation	CodeCode Available	2
EDA: Easy Data Augmentation Techniques for Boosting Performance on Text Classification Tasks	Jan 31, 2019	Data AugmentationGeneral Classification	CodeCode Available	2
External Knowledge Injection for CLIP-Based Class-Incremental Learning	Mar 11, 2025	class-incremental learningClass Incremental Learning	CodeCode Available	2
Diffusion Models for Tabular Data: Challenges, Current Progress, and Future Directions	Feb 24, 2025	Data AugmentationImage Generation	CodeCode Available	2
Delving into the Trajectory Long-tail Distribution for Muti-object Tracking	Mar 7, 2024	Data AugmentationMulti-Object Tracking	CodeCode Available	2
DiverGen: Improving Instance Segmentation by Learning Wider Data Distribution with More Diverse Generative Data	May 16, 2024	Data AugmentationDiversity	CodeCode Available	2
Deep learning for time series classification	Oct 1, 2020	Activity RecognitionClassification	CodeCode Available	2
Deep Visual Geo-localization Benchmark	Apr 7, 2022	BenchmarkingData Augmentation	CodeCode Available	2
Understanding the Tricks of Deep Learning in Medical Image Segmentation: Challenges and Future Directions	Sep 21, 2022	Data AugmentationDomain Adaptation	CodeCode Available	2
Fast-BEV: A Fast and Strong Bird's-Eye View Perception Baseline	Jan 29, 2023	Data AugmentationLightweight Deployment	CodeCode Available	2
Data augmentation and multimodal learning for predicting drug response in patient-derived xenografts from gene expressions and histology images	Apr 25, 2022	Data AugmentationDrug Response Prediction	CodeCode Available	2
Composed Multi-modal Retrieval: A Survey of Approaches and Applications	Mar 3, 2025	Cross-Modal RetrievalData Augmentation	CodeCode Available	2
Deep PCB To COCO Convertor	May 1, 2022	ClassificationData Augmentation	CodeCode Available	2
CodeS: Towards Building Open-source Language Models for Text-to-SQL	Feb 26, 2024	Data AugmentationDiagnostic	CodeCode Available	2
Conditional Diffusion Models for Semantic 3D Brain MRI Synthesis	May 29, 2023	Data AugmentationImage Generation	CodeCode Available	2
AeroGen: Enhancing Remote Sensing Object Detection with Diffusion-Driven Data Generation	Nov 23, 2024	Data AugmentationDiversity	CodeCode Available	2
Depth Field Networks for Generalizable Multi-view Scene Representation	Jul 28, 2022	Data AugmentationDepth Estimation	CodeCode Available	2
Data is all you need: Finetuning LLMs for Chip Design via an Automated design-data augmentation framework	Mar 17, 2024	AllData Augmentation	CodeCode Available	2
EarthLoc: Astronaut Photography Localization by Indexing Earth from Space	Mar 11, 2024	Data AugmentationDisaster Response	CodeCode Available	2
BWFormer: Building Wireframe Reconstruction from Airborne LiDAR Point Cloud with Transformer	Jan 1, 2025	Data Augmentation	CodeCode Available	2
EdgeYOLO: An Edge-Real-Time Object Detector	Feb 15, 2023	Data AugmentationEdge-computing	CodeCode Available	2
BOP Challenge 2020 on 6D Object Localization	Sep 15, 2020	6D Pose Estimation6D Pose Estimation using RGB	CodeCode Available	2
EfficientTrain: Exploring Generalized Curriculum Learning for Training Visual Backbones	Nov 17, 2022	Data AugmentationSelf-Supervised Learning	CodeCode Available	2
Efficient Training of Language Models to Fill in the Middle	Jul 28, 2022	Data Augmentation	CodeCode Available	2
Enhance Then Search: An Augmentation-Search Strategy with Foundation Models for Cross-Domain Few-Shot Object Detection	Apr 6, 2025	Cross-Domain Few-ShotCross-Domain Few-Shot Object Detection	CodeCode Available	2
Calib3D: Calibrating Model Preferences for Reliable 3D Scene Understanding	Mar 25, 2024	Data AugmentationScene Understanding	CodeCode Available	2
Fixing the train-test resolution discrepancy	Jun 14, 2019	Data AugmentationFine-Grained Image Classification	CodeCode Available	2
BiRP: Learning Robot Generalized Bimanual Coordination using Relative Parameterization Method on Human Demonstration	Jul 12, 2023	Data Augmentation	CodeCode Available	2
GAN-Supervised Dense Visual Alignment	Dec 9, 2021	Data AugmentationDense Pixel Correspondence Estimation	CodeCode Available	2
Addressing Concept Shift in Online Time Series Forecasting: Detect-then-Adapt	Mar 22, 2024	Data AugmentationTime Series	CodeCode Available	2
BooW-VTON: Boosting In-the-Wild Virtual Try-On via Mask-Free Pseudo Data Training	Aug 12, 2024	Data AugmentationVirtual Try-on	CodeCode Available	2

Show:10 25 50

← PrevPage 2 of 168Next →

All datasets ImageNet CIFAR-10 GA1457

Benchmark Results

#	Model	Metric	Claimed	Verified	Status
1	DeiT-B (+MixPro)	Accuracy (%)	82.9	—	Unverified
2	ResNet-200 (DeepAA)	Accuracy (%)	81.32	—	Unverified
3	DeiT-S (+MixPro)	Accuracy (%)	81.3	—	Unverified
4	ResNet-200 (Fast AA)	Accuracy (%)	80.6	—	Unverified
5	ResNet-200 (UA)	Accuracy (%)	80.4	—	Unverified
6	ResNet-200 (AA)	Accuracy (%)	80	—	Unverified
7	ResNet-50 (DeepAA)	Accuracy (%)	78.3	—	Unverified
8	ResNet-50 (TA wide)	Accuracy (%)	78.07	—	Unverified
9	ResNet-50 (LoRot-E)	Accuracy (%)	77.72	—	Unverified
10	ResNet-50 (LoRot-I)	Accuracy (%)	77.71	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	WideResNet-40-2 (Faster AA)	Percentage error	3.7	—	Unverified
2	Shake-Shake (26 2×32d) (Faster AA)	Percentage error	2.7	—	Unverified
3	WideResNet-28-10 (Faster AA)	Percentage error	2.6	—	Unverified
4	Shake-Shake (26 2×112d) (Faster AA)	Percentage error	2	—	Unverified
5	Shake-Shake (26 2×96d) (Faster AA)	Percentage error	2	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	DiffAug	Classification Accuracy	92.7	—	Unverified
2	PaCMAP	Classification Accuracy	85.3	—	Unverified
3	hNNE	Classification Accuracy	77.4	—	Unverified
4	TopoAE	Classification Accuracy	74.6	—	Unverified