Data Augmentation

Data augmentation involves techniques used for increasing the amount of data, based on different modifications, to expand the amount of examples in the original dataset. Data augmentation not only helps to grow the dataset but it also increases the diversity of the dataset. When training machine learning models, data augmentation acts as a regularizer and helps to avoid overfitting.

Data augmentation techniques have been found useful in domains like NLP and computer vision. In computer vision, transformations like cropping, flipping, and rotation are used. In NLP, data augmentation techniques can include swapping, deletion, random insertion, among others.

Papers

Recently Added Most Hyped Most Active Needs Verification Most Verified

Showing 6951–7000 of 8378 papers

Title	Date	Tasks	Status
Acoustic scene classification using auditory datasets	Dec 26, 2021	Acoustic Scene ClassificationClassification	CodeCode Available
ARHNet: Adaptive Region Harmonization for Lesion-aware Augmentation to Improve Segmentation Performance	Jul 2, 2023	Data AugmentationImage Harmonization	CodeCode Available
Improving Grammatical Error Correction via Contextual Data Augmentation	Jun 25, 2024	Data AugmentationGrammatical Error Correction	CodeCode Available
Improving Generalization for Multimodal Fake News Detection	May 29, 2023	Data AugmentationFake News Detection	CodeCode Available
PSAT: Pediatric Segmentation Approaches via Adult Augmentations and Transfer Learning	Jul 8, 2025	AnatomyContinual Learning	CodeCode Available
Unsupervised Panoptic Interpretation of Latent Spaces in GANs Using Space-Filling Vector Quantization	Oct 27, 2024	Data AugmentationQuantization	CodeCode Available
The good, the bad and the ugly sides of data augmentation: An implicit spectral regularization perspective	Oct 10, 2022	Data Augmentationregression	CodeCode Available
The Knowref Coreference Corpus: Removing Gender and Number Cues for Difficult Pronominal Anaphora Resolution	Nov 2, 2018	Common Sense Reasoningcoreference-resolution	CodeCode Available
Pseudo-Label Generation and Various Data Augmentation for Semi-Supervised Hyperspectral Object Detection	Oct 1, 2022	Data Augmentationobject-detection	CodeCode Available
L^2CL: Embarrassingly Simple Layer-to-Layer Contrastive Learning for Graph Collaborative Filtering	Jul 19, 2024	Collaborative FilteringContrastive Learning	CodeCode Available
LA3: Efficient Label-Aware AutoAugment	Apr 20, 2023	Bayesian OptimizationData Augmentation	CodeCode Available
A Practical Method for Generating String Counterfactuals	Feb 17, 2024	counterfactualData Augmentation	CodeCode Available
Label Augmentation Method for Medical Landmark Detection in Hip Radiograph Images	Sep 27, 2023	Data Augmentation	CodeCode Available
Bridging the Gap between Decision and Logits in Decision-based Knowledge Distillation for Pre-trained Language Models	Jun 15, 2023	Data AugmentationKnowledge Distillation	CodeCode Available
Improving Dialogue State Tracking with Turn-based Loss Function and Sequential Data Augmentation	Nov 1, 2021	Data AugmentationDialogue State Tracking	CodeCode Available
Pseudo Multi-Source Domain Generalization: Bridging the Gap Between Single and Multi-Source Domain Generalization	May 29, 2025	Data AugmentationDomain Generalization	CodeCode Available
TransformCode: A Contrastive Learning Framework for Code Embedding via Subtree Transformation	Nov 10, 2023	Clone DetectionCode Search	CodeCode Available
Theoretically Motivated Data Augmentation and Regularization for Portfolio Construction	Jun 8, 2021	Data AugmentationDeep Learning	CodeCode Available
Adversarial Defense via Data Dependent Activation Function and Total Variation Minimization	Sep 23, 2018	Adversarial AttackAdversarial Defense	CodeCode Available
Disentangling Policy from Offline Task Representation Learning via Adversarial Data Augmentation	Mar 12, 2024	Contrastive LearningData Augmentation	CodeCode Available
A little goes a long way: Improving toxic language classification despite data scarcity	Sep 25, 2020	Data AugmentationGeneral Classification	CodeCode Available
Labels Generated by Large Language Model Helps Measuring People's Empathy in Vitro	Jan 1, 2025	Data AugmentationLanguage Modeling	CodeCode Available
Discriminative Neural Clustering for Speaker Diarisation	Oct 22, 2019	ClusteringData Augmentation	CodeCode Available
Transformer-Based Dual-Optical Attention Fusion Crowd Head Point Counting and Localization Network	May 11, 2025	Crowd CountingData Augmentation	CodeCode Available
Improving deep learning in arrhythmia Detection: The application of modular quality and quantity controllers in data augmentation	May 10, 2024	Arrhythmia DetectionData Augmentation	CodeCode Available
Discriminative feature generation for classification of imbalanced data	Oct 24, 2020	ClassificationData Augmentation	CodeCode Available
LaiDA: Linguistics-aware In-context Learning with Data Augmentation for Metaphor Components Identification	Aug 10, 2024	Data AugmentationDiversity	CodeCode Available
PULSAR at MEDIQA-Sum 2023: Large Language Models Augmented by Synthetic Dialogue Convert Patient Dialogues to Medical Records	Jul 5, 2023	Data AugmentationLanguage Modeling	CodeCode Available
Improving Robustness by Enhancing Weak Subnets	Jan 30, 2022	Adversarial RobustnessData Augmentation	CodeCode Available
PULSAR: Pre-training with Extracted Healthcare Terms for Summarising Patients' Problems and Data Augmentation with Black-box Large Language Models	Jun 5, 2023	Data Augmentation	CodeCode Available
Discrete Wavelet Transform for Generative Adversarial Network to Identify Drivers Using Gyroscope and Accelerometer Sensors	Apr 1, 2022	ClassificationData Augmentation	CodeCode Available
Small Object Detection via Pixel Level Balancing With Applications to Blood Cell Detection	Jun 17, 2022	2D Object DetectionCell Detection	CodeCode Available
Adversarial Bayesian Augmentation for Single-Source Domain Generalization	Jul 18, 2023	Data AugmentationDomain Generalization	CodeCode Available
SMARAGD: Learning SMatch for Accurate and Rapid Approximate Graph Distance	Mar 24, 2022	ClusteringData Augmentation	CodeCode Available
Discovering the Unknown Knowns: Turning Implicit Knowledge in the Dataset into Explicit Training Examples for Visual Question Answering	Sep 13, 2021	Data AugmentationQuestion Answering	CodeCode Available
Aligning Actions and Walking to LLM-Generated Textual Descriptions	Apr 18, 2024	Action RecognitionData Augmentation	CodeCode Available
Language Semantic Graph Guided Data-Efficient Learning	Nov 15, 2023	Data AugmentationGraph Neural Network	CodeCode Available
PushPull-Net: Inhibition-driven ResNet robust to image corruptions	Aug 7, 2024	Data AugmentationDomain Generalization	CodeCode Available
Bridging the domain gap in cross-lingual document classification	Sep 16, 2019	ClassificationCross-Domain Document Classification	CodeCode Available
Large Language Model Augmented Narrative Driven Recommendations	Jun 4, 2023	Data AugmentationLanguage Modeling	CodeCode Available
Transformers as Neural Augmentors: Class Conditional Sentence Generation via Variational Bayes	May 19, 2022	Data AugmentationDecoder	CodeCode Available
Improving Conversational Recommendation Systems via Bias Analysis and Language-Model-Enhanced Data Augmentation	Oct 25, 2023	Conversational RecommendationData Augmentation	CodeCode Available
Disconnect to Connect: A Data Augmentation Method for Improving Topology Accuracy in Image Segmentation	Mar 7, 2025	Data AugmentationImage Segmentation	CodeCode Available
Improving Compositional Generalization in Math Word Problem Solving	Sep 3, 2022	Data AugmentationMath	CodeCode Available
Pyramid Adversarial Training Improves ViT Performance	Nov 30, 2021	Adversarial AttackData Augmentation	CodeCode Available
PyramidBox++: High Performance Detector for Finding Tiny Face	Mar 31, 2019	Data AugmentationFace Detection	CodeCode Available
SmartTrim: Adaptive Tokens and Attention Pruning for Efficient Vision-Language Models	May 24, 2023	Data Augmentation	CodeCode Available
Large Margin Deep Networks for Classification	Mar 15, 2018	ClassificationData Augmentation	CodeCode Available
Temporal-Coded Deep Spiking Neural Network with Easy Training and Robust Performance	Sep 24, 2019	Data AugmentationObject Recognition	CodeCode Available
Smelting Gold and Silver for Improved Multilingual AMR-to-Text Generation	Sep 8, 2021	AMR-to-Text GenerationData Augmentation	CodeCode Available

Show:10 25 50

← PrevPage 140 of 168Next →

All datasets ImageNet CIFAR-10 GA1457

Benchmark Results

#	Model	Metric	Claimed	Verified	Status
1	DeiT-B (+MixPro)	Accuracy (%)	82.9	—	Unverified
2	ResNet-200 (DeepAA)	Accuracy (%)	81.32	—	Unverified
3	DeiT-S (+MixPro)	Accuracy (%)	81.3	—	Unverified
4	ResNet-200 (Fast AA)	Accuracy (%)	80.6	—	Unverified
5	ResNet-200 (UA)	Accuracy (%)	80.4	—	Unverified
6	ResNet-200 (AA)	Accuracy (%)	80	—	Unverified
7	ResNet-50 (DeepAA)	Accuracy (%)	78.3	—	Unverified
8	ResNet-50 (TA wide)	Accuracy (%)	78.07	—	Unverified
9	ResNet-50 (LoRot-E)	Accuracy (%)	77.72	—	Unverified
10	ResNet-50 (LoRot-I)	Accuracy (%)	77.71	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	WideResNet-40-2 (Faster AA)	Percentage error	3.7	—	Unverified
2	Shake-Shake (26 2×32d) (Faster AA)	Percentage error	2.7	—	Unverified
3	WideResNet-28-10 (Faster AA)	Percentage error	2.6	—	Unverified
4	Shake-Shake (26 2×112d) (Faster AA)	Percentage error	2	—	Unverified
5	Shake-Shake (26 2×96d) (Faster AA)	Percentage error	2	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	DiffAug	Classification Accuracy	92.7	—	Unverified
2	PaCMAP	Classification Accuracy	85.3	—	Unverified
3	hNNE	Classification Accuracy	77.4	—	Unverified
4	TopoAE	Classification Accuracy	74.6	—	Unverified