Data Augmentation

Data augmentation involves techniques used for increasing the amount of data, based on different modifications, to expand the amount of examples in the original dataset. Data augmentation not only helps to grow the dataset but it also increases the diversity of the dataset. When training machine learning models, data augmentation acts as a regularizer and helps to avoid overfitting.

Data augmentation techniques have been found useful in domains like NLP and computer vision. In computer vision, transformations like cropping, flipping, and rotation are used. In NLP, data augmentation techniques can include swapping, deletion, random insertion, among others.

Papers

Recently Added Most Hyped Most Active Needs Verification Most Verified

Showing 7551–7600 of 8378 papers

Title	Date	Tasks	Status
Missingness Augmentation: A General Approach for Improving Generative Imputation Models	Jul 31, 2021	Data AugmentationImputation	CodeCode Available
Data Augmentation for Imbalanced Regression	Feb 18, 2023	Data Augmentationregression	CodeCode Available
Strategies for Improving NL-to-FOL Translation with LLMs: Data Generation, Incremental Fine-Tuning, and Verification	Sep 24, 2024	Data AugmentationLogical Reasoning	CodeCode Available
Data Augmentation for Hypernymy Detection	May 4, 2020	Data Augmentation	CodeCode Available
Mitigating annotation shift in cancer classification using single image generative models	May 30, 2024	Breast Cancer DetectionCancer Classification	CodeCode Available
Data Augmentation for Emotion Detection in Small Imbalanced Text Data	Oct 25, 2023	Data AugmentationEmotion Recognition	CodeCode Available
Generalizing Across Domains via Cross-Gradient Training	Apr 28, 2018	Data AugmentationDomain Adaptation	CodeCode Available
A Generative Model of Symmetry Transformations	Mar 4, 2024	Data Augmentationmodel	CodeCode Available
Data Augmentation for Dementia Detection in Spoken Language	Jun 26, 2022	Data Augmentation	CodeCode Available
Mitigating Data Scarcity for Large Language Models	Feb 3, 2023	Data AugmentationEnsemble Learning	CodeCode Available
Data Augmentation for Conversational AI	Sep 9, 2023	Data Augmentation	CodeCode Available
Generalize Polyp Segmentation via Inpainting across Diverse Backgrounds and Pseudo-Mask Refinement	May 21, 2024	Data Augmentation	CodeCode Available
Robust Asymmetric Heterogeneous Federated Learning with Corrupted Clients	Mar 12, 2025	Contrastive LearningData Augmentation	CodeCode Available
Back-to-Bones: Rediscovering the Role of Backbones in Domain Generalization	Sep 2, 2022	Data Augmentationdomain classification	CodeCode Available
TopoMortar: A dataset to evaluate image segmentation methods focused on topology accuracy	Mar 5, 2025	AttributeData Augmentation	CodeCode Available
Robust Channel Learning for Large-Scale Radio Speaker Verification	Jun 16, 2024	Data AugmentationSpeaker Verification	CodeCode Available
Robust Classification by Coupling Data Mollification with Label Smoothing	Jun 3, 2024	Data AugmentationRobust classification	CodeCode Available
BackFlip: The Impact of Local and Global Data Augmentations on Artistic Image Aesthetic Assessment	Aug 26, 2024	Data Augmentation	CodeCode Available
Training Data Augmentation for Context-Sensitive Neural Lemmatization Using Inflection Tables and Raw Text	Apr 2, 2019	Data AugmentationLEMMA	CodeCode Available
Mitigating Data Redundancy to Revitalize Transformer-based Long-Term Time Series Forecasting System	Jul 16, 2022	Data AugmentationDecoder	CodeCode Available
A Web-based Mpox Skin Lesion Detection System Using State-of-the-art Deep Learning Models Considering Racial Diversity	Jun 25, 2023	Data AugmentationDiversity	CodeCode Available
Data Augmentation for Compositional Data: Advancing Predictive Models of the Microbiome	May 20, 2022	Contrastive LearningData Augmentation	CodeCode Available
Robust Deep Learning for Myocardial Scar Segmentation in Cardiac MRI with Noisy Labels	Jun 26, 2025	Data Augmentation	CodeCode Available
Structural Adversarial Objectives for Self-Supervised Representation Learning	Sep 30, 2023	Contrastive LearningData Augmentation	CodeCode Available
Structurally Diverse Sampling for Sample-Efficient Training and Comprehensive Evaluation	Mar 16, 2022	Data AugmentationDiversity	CodeCode Available
Data Augmentation for Code Translation with Comparable Corpora and Multiple References	Nov 1, 2023	Code GenerationCode Translation	CodeCode Available
RobustFair: Adversarial Evaluation through Fairness Confusion Directed Gradient Search	May 18, 2023	Data AugmentationFairness	CodeCode Available
Gender-Inclusive Grammatical Error Correction through Augmentation	Jun 12, 2023	Data AugmentationGrammatical Error Correction	CodeCode Available
Gaussian Blur and Relative Edge Response	Jan 2, 2023	Data Augmentation	CodeCode Available
GAT: Guided Adversarial Training with Pareto-optimal Auxiliary Tasks	Feb 6, 2023	Adversarial RobustnessData Augmentation	CodeCode Available
A Novel Driver Distraction Behavior Detection Method Based on Self-supervised Learning with Masked Image Modeling	Jun 1, 2023	Data AugmentationSelf-Supervised Learning	CodeCode Available
A Novel Data Augmentation Technique for Out-of-Distribution Sample Detection using Compounded Corruptions	Jul 28, 2022	Data AugmentationOut of Distribution (OOD) Detection	CodeCode Available
Practical X-ray Gastric Cancer Diagnostic Support Using Refined Stochastic Data Augmentation and Hard Boundary Box Training	Aug 18, 2021	Data AugmentationDiagnostic	CodeCode Available
Robust Heterogeneous Federated Learning under Data Corruption	Jan 1, 2023	Data AugmentationFederated Learning	CodeCode Available
Data Augmentation for Biomedical Factoid Question Answering	Apr 10, 2022	Data AugmentationInformation Retrieval	CodeCode Available
GANsemble for Small and Imbalanced Data Sets: A Baseline for Synthetic Microplastics Data	Apr 10, 2024	Data Augmentation	CodeCode Available
Mixing times of data-augmentation Gibbs samplers for high-dimensional probit regression	May 20, 2025	Data Augmentation	CodeCode Available
GANkyoku: a Generative Adversarial Network for Shakuhachi Music	Nov 22, 2019	Data AugmentationGenerative Adversarial Network	CodeCode Available
Robustification of Multilingual Language Models to Real-world Noise in Crosslingual Zero-shot Settings with Robust Contrastive Pretraining	Oct 10, 2022	Data AugmentationPretrained Multilingual Language Models	CodeCode Available
GAN-GA: A Generative Model based on Genetic Algorithm for Medical Image Generation	Dec 30, 2023	Data AugmentationDiversity	CodeCode Available
A visualization method for data domain changes in CNN networks and the optimization method for selecting thresholds in classification tasks	Apr 19, 2024	Data AugmentationData Visualization	CodeCode Available
AdLER: Adversarial Training with Label Error Rectification for One-Shot Medical Image Segmentation	Sep 2, 2023	AnatomyData Augmentation	CodeCode Available
GAN-Based Data Augmentation and Anonymization for Skin-Lesion Analysis: A Critical Review	Apr 20, 2021	Data Augmentation	CodeCode Available
MixRep: Hidden Representation Mixup for Low-Resource Speech Recognition	Oct 27, 2023	Data Augmentationspeech-recognition	CodeCode Available
Data-Augmentation-Based Dialectal Adaptation for LLMs	Apr 11, 2024	Data AugmentationNatural Language Understanding	CodeCode Available
An ordinal CNN approach for the assessment of neurological damage in Parkinson's disease patients	May 31, 2021	Data Augmentation	CodeCode Available
Galaxy Spin Classification I: Z-wise vs S-wise Spirals With Chirality Equivariant Residual Network	Oct 9, 2022	Data Augmentation	CodeCode Available
RAIN: RegulArization on Input and Network for Black-Box Domain Adaptation	Aug 22, 2022	Data AugmentationDomain Adaptation	CodeCode Available
Annotating FrameNet via Structure-Conditioned Language Generation	Jun 7, 2024	Data AugmentationSemantic Role Labeling	CodeCode Available
AVATAR: Adversarial Autoencoders with Autoregressive Refinement for Time Series Generation	Jan 3, 2025	Data AugmentationTime Series	CodeCode Available

Show:10 25 50

← PrevPage 152 of 168Next →

All datasets ImageNet CIFAR-10 GA1457

Benchmark Results

#	Model	Metric	Claimed	Verified	Status
1	DeiT-B (+MixPro)	Accuracy (%)	82.9	—	Unverified
2	ResNet-200 (DeepAA)	Accuracy (%)	81.32	—	Unverified
3	DeiT-S (+MixPro)	Accuracy (%)	81.3	—	Unverified
4	ResNet-200 (Fast AA)	Accuracy (%)	80.6	—	Unverified
5	ResNet-200 (UA)	Accuracy (%)	80.4	—	Unverified
6	ResNet-200 (AA)	Accuracy (%)	80	—	Unverified
7	ResNet-50 (DeepAA)	Accuracy (%)	78.3	—	Unverified
8	ResNet-50 (TA wide)	Accuracy (%)	78.07	—	Unverified
9	ResNet-50 (LoRot-E)	Accuracy (%)	77.72	—	Unverified
10	ResNet-50 (LoRot-I)	Accuracy (%)	77.71	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	WideResNet-40-2 (Faster AA)	Percentage error	3.7	—	Unverified
2	Shake-Shake (26 2×32d) (Faster AA)	Percentage error	2.7	—	Unverified
3	WideResNet-28-10 (Faster AA)	Percentage error	2.6	—	Unverified
4	Shake-Shake (26 2×112d) (Faster AA)	Percentage error	2	—	Unverified
5	Shake-Shake (26 2×96d) (Faster AA)	Percentage error	2	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	DiffAug	Classification Accuracy	92.7	—	Unverified
2	PaCMAP	Classification Accuracy	85.3	—	Unverified
3	hNNE	Classification Accuracy	77.4	—	Unverified
4	TopoAE	Classification Accuracy	74.6	—	Unverified