Data Augmentation

Data augmentation involves techniques used for increasing the amount of data, based on different modifications, to expand the amount of examples in the original dataset. Data augmentation not only helps to grow the dataset but it also increases the diversity of the dataset. When training machine learning models, data augmentation acts as a regularizer and helps to avoid overfitting.

Data augmentation techniques have been found useful in domains like NLP and computer vision. In computer vision, transformations like cropping, flipping, and rotation are used. In NLP, data augmentation techniques can include swapping, deletion, random insertion, among others.

Papers

Recently Added Most Hyped Most Active Needs Verification Most Verified

Showing 1551–1600 of 8378 papers

Title	Date	Tasks	Status	Hype
Data Augmentation for Intent Classification with Off-the-shelf Large Language Models	Apr 5, 2022	Data Augmentationintent-classification	CodeCode Available	1
Data Augmentation for Abstractive Query-Focused Multi-Document Summarization	Mar 2, 2021	Data AugmentationDocument Summarization	CodeCode Available	1
Rethinking Pre-training and Self-training	Jun 11, 2020	Data AugmentationObject	CodeCode Available	1
CLISC: Bridging clip and sam by enhanced cam for unsupervised brain tumor segmentation	Jan 27, 2025	Brain Tumor SegmentationData Augmentation	CodeCode Available	1
Rethinking the Effect of Data Augmentation in Adversarial Contrastive Learning	Mar 2, 2023	Contrastive LearningData Augmentation	CodeCode Available	1
Closing the Gap between TD Learning and Supervised Learning -- A Generalisation Point of View	Jan 20, 2024	Data AugmentationReinforcement Learning (RL)	CodeCode Available	1
Cross-Domain Adaptive Teacher for Object Detection	Nov 25, 2021	Data AugmentationDomain Adaptation	CodeCode Available	1
Cloud and Cloud Shadow Segmentation for Remote Sensing Imagery via Filtered Jaccard Loss Function and Parametric Augmentation	Jan 23, 2020	Cloud DetectionData Augmentation	CodeCode Available	1
Revisiting Plasticity in Visual Reinforcement Learning: Data, Modules and Training Stages	Oct 11, 2023	Data Augmentationreinforcement-learning	CodeCode Available	1
Revisit Input Perturbation Problems for LLMs: A Unified Robustness Evaluation Framework for Noisy Slot Filling Task	Oct 10, 2023	Data AugmentationDialogue Understanding	CodeCode Available	1
RFBoost: Understanding and Boosting Deep WiFi Sensing via Physical Data Augmentation	Oct 4, 2024	Data Augmentation	CodeCode Available	1
RGB no more: Minimally-decoded JPEG Vision Transformers	Nov 29, 2022	Data Augmentation	CodeCode Available	1
RigorLLM: Resilient Guardrails for Large Language Models against Undesired Content	Mar 19, 2024	Data Augmentation	CodeCode Available	1
Data Augmentation for Cross-Domain Named Entity Recognition	Sep 4, 2021	Cross-Domain Named Entity RecognitionData Augmentation	CodeCode Available	1
CONAN - COunter NArratives through Nichesourcing: a Multilingual Dataset of Responses to Fight Online Hate Speech	Jul 1, 2019	Data AugmentationTranslation	CodeCode Available	1
ColorDynamic: Generalizable, Scalable, Real-time, End-to-end Local Planner for Unstructured and Dynamic Environments	Feb 27, 2025	Data AugmentationDeep Reinforcement Learning	CodeCode Available	1
ContrastCAD: Contrastive Learning-based Representation Learning for Computer-Aided Design Models	Apr 2, 2024	Contrastive LearningData Augmentation	CodeCode Available	1
Data Augmentation for Deep Candlestick Learner	May 14, 2020	Data Augmentation	CodeCode Available	1
Robust Disentangled Variational Speech Representation Learning for Zero-shot Voice Conversion	Mar 30, 2022	Data AugmentationDecoder	CodeCode Available	1
Robust Hybrid Learning With Expert Augmentation	Feb 8, 2022	Data Augmentationvalid	CodeCode Available	1
RobustNav: Towards Benchmarking Robustness in Embodied Navigation	Jun 8, 2021	BenchmarkingData Augmentation	CodeCode Available	1
Robustness Testing of Language Understanding in Task-Oriented Dialog	Dec 30, 2020	Data AugmentationNatural Language Understanding	CodeCode Available	1
RockNER: A Simple Method to Create Adversarial Examples for Evaluating the Robustness of Named Entity Recognition Models	Sep 12, 2021	Data Augmentationnamed-entity-recognition	CodeCode Available	1
CNN-generated images are surprisingly easy to spot... for now	Dec 23, 2019	Data AugmentationImage Generation	CodeCode Available	1
Data augmentation for learning predictive models on EEG: a systematic comparison	Jun 29, 2022	Data AugmentationEEG	CodeCode Available	1
Cross-modality Data Augmentation for End-to-End Sign Language Translation	May 18, 2023	Data AugmentationKnowledge Distillation	CodeCode Available	1
ROOD-MRI: Benchmarking the robustness of deep learning segmentation models to out-of-distribution and corrupted data in MRI	Mar 11, 2022	BenchmarkingData Augmentation	CodeCode Available	1
RoofDiffusion: Constructing Roofs from Severely Corrupted Point Data via Diffusion	Apr 14, 2024	BenchmarkingData Augmentation	CodeCode Available	1
Data Augmentation using Pre-trained Transformer Models	Mar 4, 2020	Data AugmentationDiversity	CodeCode Available	1
Rotation-Invariant Transformer for Point Cloud Matching	Mar 14, 2023	Data AugmentationDecoder	CodeCode Available	1
A Fourier-based Framework for Domain Generalization	May 24, 2021	Data AugmentationDomain Generalization	CodeCode Available	1
Roto-Translation Covariant Convolutional Networks for Medical Image Analysis	Apr 10, 2018	Data AugmentationMedical Image Analysis	CodeCode Available	1
A Simple but Tough-to-Beat Data Augmentation Approach for Natural Language Understanding and Generation	Sep 29, 2020	Data AugmentationMachine Translation	CodeCode Available	1
Cross-modulated Few-shot Image Generation for Colorectal Tissue Classification	Apr 4, 2023	Data Augmentationimage-classification	CodeCode Available	1
Deep Data Augmentation for Weed Recognition Enhancement: A Diffusion Probabilistic Model and Transfer Learning Based Approach	Oct 18, 2022	Data AugmentationManagement	CodeCode Available	1
CodeIt: Self-Improving Language Models with Prioritized Hindsight Replay	Feb 7, 2024	ARCData Augmentation	CodeCode Available	1
SageMix: Saliency-Guided Mixup for Point Clouds	Oct 13, 2022	3D Part Segmentation3D Point Cloud Classification	CodeCode Available	1
Direct Differentiable Augmentation Search	Apr 9, 2021	AutoMLData Augmentation	CodeCode Available	1
SaliencyMix: A Saliency Guided Data Augmentation Strategy for Better Regularization	Jun 2, 2020	Data Augmentationobject-detection	CodeCode Available	1
Sample-adaptive Augmentation for Point Cloud Recognition Against Real-world Corruptions	Sep 19, 2023	Data Augmentation	CodeCode Available	1
A Simple Graph Contrastive Learning Framework for Short Text Classification	Jan 16, 2025	Contrastive LearningData Augmentation	CodeCode Available	1
Injecting Numerical Reasoning Skills into Language Models	Apr 9, 2020	Data AugmentationDecoder	CodeCode Available	1
Scale-aware Automatic Augmentation for Object Detection	Mar 31, 2021	Data AugmentationInstance Segmentation	CodeCode Available	1
Scale-wise Convolution for Image Restoration	Dec 19, 2019	Data AugmentationDenoising	CodeCode Available	1
Regularizing Deep Networks with Semantic Data Augmentation	Jul 21, 2020	Data AugmentationDiversity	CodeCode Available	1
A Unified Gradient Regularization Family for Adversarial Examples	Nov 19, 2015	BIG-bench Machine LearningData Augmentation	—Unverified	0
A Multi-level Supervised Contrastive Learning Framework for Low-Resource Natural Language Inference	May 31, 2022	Contrastive LearningData Augmentation	—Unverified	0
A Unified Framework for Generative Data Augmentation: A Comprehensive Survey	Sep 30, 2023	Data AugmentationSurvey	—Unverified	0
Addressing degeneracies in latent interpolation for diffusion models	May 12, 2025	Data AugmentationImage Morphing	—Unverified	0
Accurate pedestrian localization in overhead depth images via Height-Augmented HOG	May 31, 2018	BIG-bench Machine LearningData Augmentation	—Unverified	0

Show:10 25 50

← PrevPage 32 of 168Next →

All datasets ImageNet CIFAR-10 GA1457

Benchmark Results

#	Model	Metric	Claimed	Verified	Status
1	DeiT-B (+MixPro)	Accuracy (%)	82.9	—	Unverified
2	ResNet-200 (DeepAA)	Accuracy (%)	81.32	—	Unverified
3	DeiT-S (+MixPro)	Accuracy (%)	81.3	—	Unverified
4	ResNet-200 (Fast AA)	Accuracy (%)	80.6	—	Unverified
5	ResNet-200 (UA)	Accuracy (%)	80.4	—	Unverified
6	ResNet-200 (AA)	Accuracy (%)	80	—	Unverified
7	ResNet-50 (DeepAA)	Accuracy (%)	78.3	—	Unverified
8	ResNet-50 (TA wide)	Accuracy (%)	78.07	—	Unverified
9	ResNet-50 (LoRot-E)	Accuracy (%)	77.72	—	Unverified
10	ResNet-50 (LoRot-I)	Accuracy (%)	77.71	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	WideResNet-40-2 (Faster AA)	Percentage error	3.7	—	Unverified
2	Shake-Shake (26 2×32d) (Faster AA)	Percentage error	2.7	—	Unverified
3	WideResNet-28-10 (Faster AA)	Percentage error	2.6	—	Unverified
4	Shake-Shake (26 2×112d) (Faster AA)	Percentage error	2	—	Unverified
5	Shake-Shake (26 2×96d) (Faster AA)	Percentage error	2	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	DiffAug	Classification Accuracy	92.7	—	Unverified
2	PaCMAP	Classification Accuracy	85.3	—	Unverified
3	hNNE	Classification Accuracy	77.4	—	Unverified
4	TopoAE	Classification Accuracy	74.6	—	Unverified