Data Augmentation

Data augmentation involves techniques used for increasing the amount of data, based on different modifications, to expand the amount of examples in the original dataset. Data augmentation not only helps to grow the dataset but it also increases the diversity of the dataset. When training machine learning models, data augmentation acts as a regularizer and helps to avoid overfitting.

Data augmentation techniques have been found useful in domains like NLP and computer vision. In computer vision, transformations like cropping, flipping, and rotation are used. In NLP, data augmentation techniques can include swapping, deletion, random insertion, among others.

Papers

Recently Added Most Hyped Most Active Needs Verification Most Verified

Showing 8101–8150 of 8378 papers

Title	Date	Tasks	Status
On the Importance of Capturing a Sufficient Diversity of Perspective for the Classification of micro-PCBs	Jan 27, 2021	Data AugmentationDiversity	CodeCode Available
Class Imbalance in Object Detection: An Experimental Diagnosis and Study of Mitigation Strategies	Mar 11, 2024	BenchmarkingData Augmentation	CodeCode Available
Tailoring Mixup to Data for Calibration	Nov 2, 2023	Data AugmentationDiversity	CodeCode Available
Classification robustness to common optical aberrations	Aug 29, 2023	Data AugmentationImage Classification	CodeCode Available
Augmentation Matters: A Mix-Paste Method for X-Ray Prohibited Item Detection under Noisy Annotations	Jan 3, 2025	Data Augmentation	CodeCode Available
Classification of Bark Beetle-Induced Forest Tree Mortality using Deep Learning	Jul 15, 2022	Data AugmentationDeep Learning	CodeCode Available
DC4L: Distribution Shift Recovery via Data-Driven Control for Deep Learning Models	Feb 20, 2023	Data AugmentationDimensionality Reduction	CodeCode Available
Classification Beats Regression: Counting of Cells from Greyscale Microscopic Images based on Annotation-free Training Samples	Oct 28, 2020	Data Augmentationimage-classification	CodeCode Available
CLaMP: Contrastive Language-Music Pre-training for Cross-Modal Symbolic Music Information Retrieval	Apr 21, 2023	Data AugmentationInformation Retrieval	CodeCode Available
Augmentation Backdoors	Sep 29, 2022	Data Augmentation	CodeCode Available
Semantically Consistent Data Augmentation for Neural Machine Translation via Conditional Masked Language Model	Sep 22, 2022	Data AugmentationDiversity	CodeCode Available
Adversarial Semi-Supervised Audio Source Separation applied to Singing Voice Extraction	Oct 31, 2017	Audio Source SeparationData Augmentation	CodeCode Available
Semantically Distributed Robust Optimization for Vision-and-Language Inference	Oct 14, 2021	Data AugmentationNatural Language Inference	CodeCode Available
Enhance Multimodal Model Performance with Data Augmentation: Facebook Hateful Meme Challenge Solution	May 25, 2021	Data AugmentationDeep Learning	CodeCode Available
On the Privacy Effect of Data Enhancement via the Lens of Memorization	Aug 17, 2022	Adversarial RobustnessData Augmentation	CodeCode Available
Semantically Equivalent Adversarial Rules for Debugging NLP models	Jul 1, 2018	Data AugmentationQuestion Answering	CodeCode Available
On the Robustness of Intent Classification and Slot Labeling in Goal-oriented Dialog Systems to Real-world Noise	Apr 14, 2021	Data AugmentationGoal-Oriented Dialog	CodeCode Available
Towards Robust Temporal Reasoning of Large Language Models via a Multi-Hop QA Dataset and Pseudo-Instruction Tuning	Nov 16, 2023	Data AugmentationQuestion Answering	CodeCode Available
Enhanced Semantic Segmentation Pipeline for WeatherProof Dataset Challenge	Jun 6, 2024	Data AugmentationSegmentation	CodeCode Available
Towards Robust Transcription: Exploring Noise Injection Strategies for Training Data Augmentation	Oct 18, 2024	Data Augmentation	CodeCode Available
WavLM model ensemble for audio deepfake detection	Aug 14, 2024	Audio Deepfake DetectionData Augmentation	CodeCode Available
On the Summarization of Consumer Health Questions	Jul 1, 2019	Data AugmentationQuestion Answering	CodeCode Available
Semantic-aware Data Augmentation for Text-to-image Synthesis	Dec 13, 2023	Data AugmentationImage Generation	CodeCode Available
CINeMA: Conditional Implicit Neural Multi-Modal Atlas for a Spatio-Temporal Representation of the Perinatal Brain	Jun 11, 2025	Data AugmentationImage Registration	CodeCode Available
Towards Robust Unsupervised Attention Prediction in Autonomous Driving	Jan 25, 2025	Autonomous DrivingData Augmentation	CodeCode Available
Enhanced Long-Tailed Recognition with Contrastive CutMix Augmentation	Jul 6, 2024	Contrastive LearningData Augmentation	CodeCode Available
An Analysis of Unsupervised Pre-training in Light of Recent Advances	Dec 20, 2014	Data AugmentationImage Classification	CodeCode Available
Data Augmentation for Object Detection via Progressive and Selective Instance-Switching	Jun 2, 2019	Data AugmentationInstance Segmentation	CodeCode Available
UniGAP: A Universal and Adaptive Graph Upsampling Approach to Mitigate Over-Smoothing in Node Classification Tasks	Jul 28, 2024	Data AugmentationNode Classification	CodeCode Available
Enhanced Generative Data Augmentation for Semantic Segmentation via Stronger Guidance	Sep 9, 2024	Data AugmentationSegmentation	CodeCode Available
Targeted Nonlinear Adversarial Perturbations in Images and Videos	Aug 27, 2018	Action RecognitionData Augmentation	CodeCode Available
ENGAGE: Explanation Guided Data Augmentation for Graph Representation Learning	Jul 3, 2023	Contrastive LearningData Augmentation	CodeCode Available
CIC-BART-SSA: Controllable Image Captioning with Structured Semantic Augmentation	Jul 16, 2024	controllable image captioningData Augmentation	CodeCode Available
Targeted synthetic data generation for tabular data via hardness characterization	Oct 1, 2024	Data AugmentationData Valuation	CodeCode Available
End-To-End Speech Recognition Using A High Rank LSTM-CTC Based Model	Mar 12, 2019	Data Augmentationspeech-recognition	CodeCode Available
Adversarial Robustness Study of Convolutional Neural Network for Lumbar Disk Shape Reconstruction from MR images	Feb 4, 2021	Adversarial RobustnessData Augmentation	CodeCode Available
TSA on AutoPilot: Self-tuning Self-supervised Time Series Anomaly Detection	Apr 3, 2024	Anomaly DetectionData Augmentation	CodeCode Available
Enabling Data Diversity: Efficient Automatic Augmentation via Regularized Adversarial Training	Mar 30, 2021	Cancer ClassificationData Augmentation	CodeCode Available
OpenMix+: Revisiting Data Augmentation for Open Set Recognition	Apr 20, 2023	Data AugmentationOpen Set Learning	CodeCode Available
An Analysis of the Influence of Transfer Learning When Measuring the Tortuosity of Blood Vessels	Nov 19, 2021	Data AugmentationSegmentation	CodeCode Available
Semantic keypoint extraction for scanned animals using multi-depth-camera systems	Nov 16, 2022	3D ReconstructionData Augmentation	CodeCode Available
CIAug: Equipping Interpolative Augmentation with Curriculum Learning	Jul 1, 2022	Data Augmentationnamed-entity-recognition	CodeCode Available
ChildAugment: Data Augmentation Methods for Zero-Resource Children's Speaker Verification	Feb 23, 2024	Data AugmentationSpeaker Verification	CodeCode Available
Augmentation-Aware Self-Supervision for Data-Efficient GAN Training	May 31, 2022	Data AugmentationRepresentation Learning	CodeCode Available
AugDMC: Data Augmentation Guided Deep Multiple Clustering	Jun 22, 2023	ClusteringData Augmentation	CodeCode Available
AudRandAug: Random Image Augmentations for Audio Classification	Sep 9, 2023	Audio ClassificationClassification	CodeCode Available
Task Augmentation by Rotating for Meta-Learning	Feb 8, 2020	Data AugmentationFew-Shot Learning	CodeCode Available
Audiogmenter: a MATLAB Toolbox for Audio Data Augmentation	Dec 11, 2019	Audio ClassificationData Augmentation	CodeCode Available
Towards Self-Supervised Learning of Global and Object-Centric Representations	Mar 11, 2022	Data AugmentationObject	CodeCode Available
Optimal Transport Posterior Alignment for Cross-lingual Semantic Parsing	Jul 9, 2023	Data AugmentationSemantic Parsing	CodeCode Available

Show:10 25 50

← PrevPage 163 of 168Next →

All datasets ImageNet CIFAR-10 GA1457

Benchmark Results

#	Model	Metric	Claimed	Verified	Status
1	DeiT-B (+MixPro)	Accuracy (%)	82.9	—	Unverified
2	ResNet-200 (DeepAA)	Accuracy (%)	81.32	—	Unverified
3	DeiT-S (+MixPro)	Accuracy (%)	81.3	—	Unverified
4	ResNet-200 (Fast AA)	Accuracy (%)	80.6	—	Unverified
5	ResNet-200 (UA)	Accuracy (%)	80.4	—	Unverified
6	ResNet-200 (AA)	Accuracy (%)	80	—	Unverified
7	ResNet-50 (DeepAA)	Accuracy (%)	78.3	—	Unverified
8	ResNet-50 (TA wide)	Accuracy (%)	78.07	—	Unverified
9	ResNet-50 (LoRot-E)	Accuracy (%)	77.72	—	Unverified
10	ResNet-50 (LoRot-I)	Accuracy (%)	77.71	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	WideResNet-40-2 (Faster AA)	Percentage error	3.7	—	Unverified
2	Shake-Shake (26 2×32d) (Faster AA)	Percentage error	2.7	—	Unverified
3	WideResNet-28-10 (Faster AA)	Percentage error	2.6	—	Unverified
4	Shake-Shake (26 2×112d) (Faster AA)	Percentage error	2	—	Unverified
5	Shake-Shake (26 2×96d) (Faster AA)	Percentage error	2	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	DiffAug	Classification Accuracy	92.7	—	Unverified
2	PaCMAP	Classification Accuracy	85.3	—	Unverified
3	hNNE	Classification Accuracy	77.4	—	Unverified
4	TopoAE	Classification Accuracy	74.6	—	Unverified