Data Augmentation

Data augmentation involves techniques used for increasing the amount of data, based on different modifications, to expand the amount of examples in the original dataset. Data augmentation not only helps to grow the dataset but it also increases the diversity of the dataset. When training machine learning models, data augmentation acts as a regularizer and helps to avoid overfitting.

Data augmentation techniques have been found useful in domains like NLP and computer vision. In computer vision, transformations like cropping, flipping, and rotation are used. In NLP, data augmentation techniques can include swapping, deletion, random insertion, among others.

Papers

Recently Added Most Hyped Most Active Needs Verification Most Verified

Showing 1351–1400 of 8378 papers

Title	Date	Tasks	Status	Hype
Unsupervised Sketch-to-Photo Synthesis	Sep 18, 2019	ColorizationData Augmentation	CodeCode Available	1
Learning joint segmentation of tissues and brain lesions from task-specific hetero-modal domain-shifted datasets	Sep 8, 2020	Data AugmentationLesion Segmentation	CodeCode Available	1
Adversarial Dual-Student with Differentiable Spatial Warping for Semi-Supervised Semantic Segmentation	Mar 5, 2022	Data AugmentationPseudo Label	CodeCode Available	1
Learning Normal Flow Directly From Event Neighborhoods	Dec 15, 2024	Data AugmentationOptical Flow Estimation	CodeCode Available	1
Learning Representations of Bi-level Knowledge Graphs for Reasoning beyond Link Prediction	Feb 6, 2023	Data AugmentationGraph Embedding	CodeCode Available	1
Learning Robust Representations via Multi-View Information Bottleneck	Feb 17, 2020	Data AugmentationRepresentation Learning	CodeCode Available	1
Learning Symmetry-Aware Geometry Correspondences for 6D Object Pose Estimation	Jan 1, 2023	6D Pose Estimation6D Pose Estimation using RGB	CodeCode Available	1
Learning Temporally Invariant and Localizable Features via Data Augmentation for Video Recognition	Aug 13, 2020	Action RecognitionData Augmentation	CodeCode Available	1
Cost-Sensitive BERT for Generalisable Sentence Classification with Imbalanced Data	Mar 16, 2020	ClassificationData Augmentation	CodeCode Available	1
Learning to Search Feasible and Infeasible Regions of Routing Problems with Flexible Neural k-Opt	Oct 27, 2023	Data AugmentationDecoder	CodeCode Available	1
Counterfactual Cycle-Consistent Learning for Instruction Following and Generation in Vision-Language Navigation	Mar 30, 2022	counterfactualData Augmentation	CodeCode Available	1
Learn to Augment: Joint Data Augmentation and Network Optimization for Text Recognition	Mar 14, 2020	Data AugmentationDiversity	CodeCode Available	1
Lesion-based Contrastive Learning for Diabetic Retinopathy Grading from Fundus Images	Jul 17, 2021	Contrastive LearningData Augmentation	CodeCode Available	1
C2C-GenDA: Cluster-to-Cluster Generation for Data Augmentation of Slot Filling	Dec 13, 2020	Data AugmentationDiversity	CodeCode Available	1
CT4Rec: Simple yet Effective Consistency Training for Sequential Recommendation	Dec 13, 2021	Click-Through Rate PredictionContrastive Learning	CodeCode Available	1
A parallel corpus of Python functions and documentation strings for automated code documentation and code generation	Jul 7, 2017	Code GenerationData Augmentation	CodeCode Available	1
AutoCLINT: The Winning Method in AutoCV Challenge 2019	May 9, 2020	BIG-bench Machine LearningData Augmentation	CodeCode Available	1
CACTI: A Framework for Scalable Multi-Task Multi-Scene Visual Imitation Learning	Dec 12, 2022	Data AugmentationImage Generation	CodeCode Available	1
Lie Point Symmetry Data Augmentation for Neural PDE Solvers	Feb 15, 2022	Data Augmentation	CodeCode Available	1
AutoBalance: Optimized Loss Functions for Imbalanced Data	Jan 4, 2022	Data AugmentationFairness	CodeCode Available	1
CADTransformer: Panoptic Symbol Spotting Transformer for CAD Drawings	Jan 1, 2022	Data Augmentation	CodeCode Available	1
CAiRE in DialDoc21: Data Augmentation for Information-Seeking Dialogue System	Jun 7, 2021	Data AugmentationResponse Generation	CodeCode Available	1
CAiRE in DialDoc21: Data Augmentation for Information Seeking Dialogue System	Aug 1, 2021	Data AugmentationResponse Generation	CodeCode Available	1
APBench: A Unified Benchmark for Availability Poisoning Attacks and Defenses	Aug 7, 2023	Data Augmentation	CodeCode Available	1
CoSDA-ML: Multi-Lingual Code-Switching Data Augmentation for Zero-Shot Cross-Lingual NLP	Jun 11, 2020	Data Augmentation	CodeCode Available	1
Counterfactual Data Augmentation for Neural Machine Translation	Jun 1, 2021	counterfactualData Augmentation	CodeCode Available	1
Cross-Domain Feature Augmentation for Domain Generalization	May 14, 2024	Data AugmentationDiversity	CodeCode Available	1
Adversarial Feature Hallucination Networks for Few-Shot Learning	Mar 30, 2020	Data AugmentationDiversity	CodeCode Available	1
Local Additivity Based Data Augmentation for Semi-supervised NER	Oct 4, 2020	Data Augmentationnamed-entity-recognition	CodeCode Available	1
Calibrating Wireless Ray Tracing for Digital Twinning using Local Phase Error Estimates	Dec 19, 2023	Data Augmentation	CodeCode Available	1
Logic-Guided Data Augmentation and Regularization for Consistent Question Answering	Apr 21, 2020	Data AugmentationMachine Reading Comprehension	CodeCode Available	1
Long-tail Augmented Graph Contrastive Learning for Recommendation	Sep 20, 2023	Contrastive LearningData Augmentation	CodeCode Available	1
A Contrastive Cross-Channel Data Augmentation Framework for Aspect-based Sentiment Analysis	Apr 16, 2022	Aspect-Based Sentiment AnalysisAspect-Based Sentiment Analysis (ABSA)	CodeCode Available	1
CAM Back Again: Large Kernel CNNs from a Weakly Supervised Object Localization Perspective	Mar 11, 2024	Data AugmentationObject Localization	CodeCode Available	1
A pipeline for fair comparison of graph neural networks in node classification tasks	Dec 19, 2020	Data AugmentationGeneral Classification	CodeCode Available	1
Lung Segmentation from Chest X-rays using Variational Data Imputation	May 20, 2020	Data AugmentationImage Segmentation	CodeCode Available	1
CodeIt: Self-Improving Language Models with Prioritized Hindsight Replay	Feb 7, 2024	ARCData Augmentation	CodeCode Available	1
MagicNet: Semi-Supervised Multi-Organ Segmentation via Magic-Cube Partition and Recovery	Dec 29, 2022	AnatomyData Augmentation	CodeCode Available	1
MaGNET: Uniform Sampling from Deep Generative Network Manifolds Without Retraining	Oct 15, 2021	Data AugmentationDomain Adaptation	CodeCode Available	1
Making More of Little Data: Improving Low-Resource Automatic Speech Recognition Using Data Augmentation	May 18, 2023	Automatic Speech RecognitionAutomatic Speech Recognition (ASR)	CodeCode Available	1
A 3D generative model of pathological multi-modal MR images and segmentations	Nov 8, 2023	Data AugmentationMRI segmentation	CodeCode Available	1
ColorDynamic: Generalizable, Scalable, Real-time, End-to-end Local Planner for Unstructured and Dynamic Environments	Feb 27, 2025	Data AugmentationDeep Reinforcement Learning	CodeCode Available	1
Mask Conditional Synthetic Satellite Imagery	Feb 8, 2023	Data AugmentationDiversity	CodeCode Available	1
Masked Autoencoders are Robust Data Augmentors	Jun 10, 2022	Data AugmentationImage Augmentation	CodeCode Available	1
Appearance and Structure Aware Robust Deep Visual Graph Matching: Attack, Defense and Beyond	Jan 1, 2022	Adversarial AttackData Augmentation	CodeCode Available	1
Mastering Visual Continuous Control: Improved Data-Augmented Reinforcement Learning	Jul 20, 2021	continuous-controlContinuous Control	CodeCode Available	1
MathFusion: Enhancing Mathematic Problem-solving of LLM through Instruction Fusion	Mar 20, 2025	Data AugmentationMathematical Problem-Solving	CodeCode Available	1
Maximum-Entropy Adversarial Data Augmentation for Improved Generalization and Robustness	Oct 15, 2020	Data Augmentation	CodeCode Available	1
MedAugment: Universal Automatic Data Augmentation Plug-in for Medical Image Analysis	Jun 30, 2023	Data AugmentationDiagnostic	CodeCode Available	1
Cooperative Training and Latent Space Data Augmentation for Robust Medical Image Segmentation	Jul 2, 2021	Data AugmentationImage Reconstruction	CodeCode Available	1

Show:10 25 50

← PrevPage 28 of 168Next →

All datasets ImageNet CIFAR-10 GA1457

Benchmark Results

#	Model	Metric	Claimed	Verified	Status
1	DeiT-B (+MixPro)	Accuracy (%)	82.9	—	Unverified
2	ResNet-200 (DeepAA)	Accuracy (%)	81.32	—	Unverified
3	DeiT-S (+MixPro)	Accuracy (%)	81.3	—	Unverified
4	ResNet-200 (Fast AA)	Accuracy (%)	80.6	—	Unverified
5	ResNet-200 (UA)	Accuracy (%)	80.4	—	Unverified
6	ResNet-200 (AA)	Accuracy (%)	80	—	Unverified
7	ResNet-50 (DeepAA)	Accuracy (%)	78.3	—	Unverified
8	ResNet-50 (TA wide)	Accuracy (%)	78.07	—	Unverified
9	ResNet-50 (LoRot-E)	Accuracy (%)	77.72	—	Unverified
10	ResNet-50 (LoRot-I)	Accuracy (%)	77.71	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	WideResNet-40-2 (Faster AA)	Percentage error	3.7	—	Unverified
2	Shake-Shake (26 2×32d) (Faster AA)	Percentage error	2.7	—	Unverified
3	WideResNet-28-10 (Faster AA)	Percentage error	2.6	—	Unverified
4	Shake-Shake (26 2×112d) (Faster AA)	Percentage error	2	—	Unverified
5	Shake-Shake (26 2×96d) (Faster AA)	Percentage error	2	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	DiffAug	Classification Accuracy	92.7	—	Unverified
2	PaCMAP	Classification Accuracy	85.3	—	Unverified
3	hNNE	Classification Accuracy	77.4	—	Unverified
4	TopoAE	Classification Accuracy	74.6	—	Unverified