Data Augmentation

Data augmentation involves techniques used for increasing the amount of data, based on different modifications, to expand the amount of examples in the original dataset. Data augmentation not only helps to grow the dataset but it also increases the diversity of the dataset. When training machine learning models, data augmentation acts as a regularizer and helps to avoid overfitting.

Data augmentation techniques have been found useful in domains like NLP and computer vision. In computer vision, transformations like cropping, flipping, and rotation are used. In NLP, data augmentation techniques can include swapping, deletion, random insertion, among others.

Papers

Recently Added Most Hyped Most Active Needs Verification Most Verified

Showing 901–950 of 8378 papers

Title	Date	Tasks	Status	Hype
Learning Better Contrastive View from Radiologist's Gaze	May 15, 2023	Contrastive LearningData Augmentation	CodeCode Available	1
Learning Data Augmentation Strategies for Object Detection	Jun 26, 2019	Data AugmentationImage Augmentation	CodeCode Available	1
Learning domain-agnostic visual representation for computational pathology using medically-irrelevant style transfer augmentation	Feb 2, 2021	Data AugmentationDomain Adaptation	CodeCode Available	1
Learning Fair Node Representations with Graph Counterfactual Fairness	Jan 10, 2022	Attributecounterfactual	CodeCode Available	1
Generative Latent Implicit Conditional Optimization when Learning from Small Sample	Mar 31, 2020	Conditional Image GenerationData Augmentation	CodeCode Available	1
Learning High-Quality and General-Purpose Phrase Representations	Jan 18, 2024	Contrastive LearningData Augmentation	CodeCode Available	1
ADASR: An Adversarial Auto-Augmentation Framework for Hyperspectral and Multispectral Data Fusion	Oct 11, 2023	Data AugmentationDiversity	CodeCode Available	1
Learning Multimodal Data Augmentation in Feature Space	Dec 29, 2022	Data Augmentationimage-classification	CodeCode Available	1
Learning Performance-Improving Code Edits	Feb 15, 2023	Code GenerationCode Repair	CodeCode Available	1
Learning Representational Invariances for Data-Efficient Action Recognition	Mar 30, 2021	Action RecognitionData Augmentation	CodeCode Available	1
Confident Sinkhorn Allocation for Pseudo-Labeling	Jun 13, 2022	Data AugmentationPseudo Label	CodeCode Available	1
Learning the Unlearnable: Adversarial Augmentations Suppress Unlearnable Example Attacks	Mar 27, 2023	Data AugmentationData Poisoning	CodeCode Available	1
Learning to Perturb Word Embeddings for Out-of-distribution QA	May 6, 2021	Data AugmentationDomain Generalization	CodeCode Available	1
Attribute Descent: Simulating Object-Centric Datasets on the Content Level and Beyond	Feb 28, 2022	AttributeData Augmentation	CodeCode Available	1
Learning Two-Stream CNN for Multi-Modal Age-related Macular Degeneration Categorization	Dec 3, 2020	Data AugmentationImage Generation	CodeCode Available	1
Learn to Augment: Joint Data Augmentation and Network Optimization for Text Recognition	Mar 14, 2020	Data AugmentationDiversity	CodeCode Available	1
A Two-Stage Approach to Device-Robust Acoustic Scene Classification	Nov 3, 2020	Acoustic Scene ClassificationClassification	CodeCode Available	1
LEIA: Facilitating Cross-lingual Knowledge Transfer in Language Models with Entity-based Data Augmentation	Feb 18, 2024	Cross-Lingual TransferData Augmentation	CodeCode Available	1
Conformal Prediction with Missing Values	Jun 5, 2023	Conformal PredictionData Augmentation	CodeCode Available	1
Leveraging Latent Diffusion Models for Training-Free In-Distribution Data Augmentation for Surface Defect Detection	Jul 4, 2024	Data AugmentationDefect Detection	CodeCode Available	1
AUCO ResNet: an end-to-end network for Covid-19 pre-screening from cough and breath	Mar 15, 2022	8kAudio Classification	CodeCode Available	1
A Light Recipe to Train Robust Vision Transformers	Sep 15, 2022	Adversarial RobustnessData Augmentation	CodeCode Available	1
Context Decoupling Augmentation for Weakly Supervised Semantic Segmentation	Mar 2, 2021	Data AugmentationObject	CodeCode Available	1
Concatenated Masked Autoencoders as Spatial-Temporal Learner	Nov 2, 2023	Action RecognitionData Augmentation	CodeCode Available	1
Uncovering the Limits of Machine Learning for Automatic Vulnerability Detection	Jun 28, 2023	BenchmarkingData Augmentation	CodeCode Available	1
LiteDepth: Digging into Fast and Accurate Depth Estimation on Mobile Devices	Sep 2, 2022	Data AugmentationDepth Estimation	CodeCode Available	1
LM-CPPF: Paraphrasing-Guided Data Augmentation for Contrastive Prompt-Based Few-Shot Fine-Tuning	May 29, 2023	Contrastive LearningData Augmentation	CodeCode Available	1
Local Additivity Based Data Augmentation for Semi-supervised NER	Oct 4, 2020	Data Augmentationnamed-entity-recognition	CodeCode Available	1
Logic-Guided Data Augmentation and Regularization for Consistent Question Answering	Apr 21, 2020	Data AugmentationMachine Reading Comprehension	CodeCode Available	1
Long-tail Augmented Graph Contrastive Learning for Recommendation	Sep 20, 2023	Contrastive LearningData Augmentation	CodeCode Available	1
Flexible Distribution Alignment: Towards Long-tailed Semi-supervised Learning with Proper Calibration	Jun 7, 2023	Data Augmentation	CodeCode Available	1
Low-Resource Neural Machine Translation: A Case Study of Cantonese	Oct 1, 2022	Data AugmentationLow Resource Neural Machine Translation	CodeCode Available	1
AugCSE: Contrastive Sentence Embedding with Diverse Augmentations	Oct 20, 2022	Data AugmentationDomain Adaptation	CodeCode Available	1
Lung Segmentation from Chest X-rays using Variational Data Imputation	May 20, 2020	Data AugmentationImage Segmentation	CodeCode Available	1
AugESC: Dialogue Augmentation with Large Language Models for Emotional Support Conversation	Feb 26, 2022	Data AugmentationDialogue Generation	CodeCode Available	1
Aligning Generative Denoising with Discriminative Objectives Unleashes Diffusion for Visual Perception	Apr 15, 2025	Data AugmentationDenoising	CodeCode Available	1
MaGNET: Uniform Sampling from Deep Generative Network Manifolds Without Retraining	Oct 15, 2021	Data AugmentationDomain Adaptation	CodeCode Available	1
Making More of Little Data: Improving Low-Resource Automatic Speech Recognition Using Data Augmentation	May 18, 2023	Automatic Speech RecognitionAutomatic Speech Recognition (ASR)	CodeCode Available	1
AugLiChem: Data Augmentation Library of Chemical Structures for Machine Learning	Nov 30, 2021	BIG-bench Machine LearningData Augmentation	CodeCode Available	1
AlignMixup: Improving Representations By Interpolating Aligned Features	Mar 29, 2021	Data AugmentationRepresentation Learning	CodeCode Available	1
CONAN - COunter NArratives through Nichesourcing: a Multilingual Dataset of Responses to Fight Online Hate Speech	Jul 1, 2019	Data AugmentationTranslation	CodeCode Available	1
Anatomical Data Augmentation via Fluid-based Image Registration	Jul 5, 2020	Data AugmentationImage Augmentation	CodeCode Available	1
BDANet: Multiscale Convolutional Neural Network with Cross-directional Attention for Building Damage Assessment from Satellite Images	May 16, 2021	2D Semantic SegmentationBuilding Damage Assessment	CodeCode Available	1
Behavior Injection: Preparing Language Models for Reinforcement Learning	May 25, 2025	Data Augmentationreinforcement-learning	CodeCode Available	1
MaskRIS: Semantic Distortion-aware Data Augmentation for Referring Image Segmentation	Nov 28, 2024	Data AugmentationImage Segmentation	CodeCode Available	1
Mastering Visual Continuous Control: Improved Data-Augmented Reinforcement Learning	Jul 20, 2021	continuous-controlContinuous Control	CodeCode Available	1
Maximum-Entropy Adversarial Data Augmentation for Improved Generalization and Robustness	Oct 15, 2020	Data Augmentation	CodeCode Available	1
Augmentation-Free Dense Contrastive Knowledge Distillation for Efficient Semantic Segmentation	Dec 7, 2023	Contrastive LearningData Augmentation	CodeCode Available	1
Composing Good Shots by Exploiting Mutual Relations	Jun 1, 2020	Data Augmentation	CodeCode Available	1
Compositional Generalization for Multi-label Text Classification: A Data-Augmentation Approach	Dec 18, 2023	ClassificationData Augmentation	CodeCode Available	1

Show:10 25 50

← PrevPage 19 of 168Next →

All datasets ImageNet CIFAR-10 GA1457

Benchmark Results

#	Model	Metric	Claimed	Verified	Status
1	DeiT-B (+MixPro)	Accuracy (%)	82.9	—	Unverified
2	ResNet-200 (DeepAA)	Accuracy (%)	81.32	—	Unverified
3	DeiT-S (+MixPro)	Accuracy (%)	81.3	—	Unverified
4	ResNet-200 (Fast AA)	Accuracy (%)	80.6	—	Unverified
5	ResNet-200 (UA)	Accuracy (%)	80.4	—	Unverified
6	ResNet-200 (AA)	Accuracy (%)	80	—	Unverified
7	ResNet-50 (DeepAA)	Accuracy (%)	78.3	—	Unverified
8	ResNet-50 (TA wide)	Accuracy (%)	78.07	—	Unverified
9	ResNet-50 (LoRot-E)	Accuracy (%)	77.72	—	Unverified
10	ResNet-50 (LoRot-I)	Accuracy (%)	77.71	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	WideResNet-40-2 (Faster AA)	Percentage error	3.7	—	Unverified
2	Shake-Shake (26 2×32d) (Faster AA)	Percentage error	2.7	—	Unverified
3	WideResNet-28-10 (Faster AA)	Percentage error	2.6	—	Unverified
4	Shake-Shake (26 2×96d) (Faster AA)	Percentage error	2	—	Unverified
5	Shake-Shake (26 2×112d) (Faster AA)	Percentage error	2	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	DiffAug	Classification Accuracy	92.7	—	Unverified
2	PaCMAP	Classification Accuracy	85.3	—	Unverified
3	hNNE	Classification Accuracy	77.4	—	Unverified
4	TopoAE	Classification Accuracy	74.6	—	Unverified