Data Augmentation

Data augmentation involves techniques used for increasing the amount of data, based on different modifications, to expand the amount of examples in the original dataset. Data augmentation not only helps to grow the dataset but it also increases the diversity of the dataset. When training machine learning models, data augmentation acts as a regularizer and helps to avoid overfitting.

Data augmentation techniques have been found useful in domains like NLP and computer vision. In computer vision, transformations like cropping, flipping, and rotation are used. In NLP, data augmentation techniques can include swapping, deletion, random insertion, among others.

Papers

Recently Added Most Hyped Most Active Needs Verification Most Verified

Showing 1301–1350 of 8378 papers

Title	Date	Tasks	Status	Hype
Control, Generate, Augment: A Scalable Framework for Multi-Attribute Text Generation	Apr 30, 2020	AttributeData Augmentation	CodeCode Available	1
Bootstrap Your Object Detector via Mixed Training	Nov 4, 2021	Data AugmentationMissing Labels	CodeCode Available	1
AutoDetect: Towards a Unified Framework for Automated Weakness Detection in Large Language Models	Jun 24, 2024	BenchmarkingData Augmentation	CodeCode Available	1
AutoDC: Automated data-centric processing	Nov 23, 2021	AutoMLData Augmentation	CodeCode Available	1
Improved Regularization of Convolutional Neural Networks with Cutout	Aug 15, 2017	Data AugmentationDomain Generalization	CodeCode Available	1
Improving Aspect Sentiment Quad Prediction via Template-Order Data Augmentation	Oct 19, 2022	Aspect-Based Sentiment Analysis (ABSA)Data Augmentation	CodeCode Available	1
Contrastive Learning for Sequential Recommendation	Oct 27, 2020	Contrastive LearningData Augmentation	CodeCode Available	1
Improving Compositional Generalization with Latent Structure and Data Augmentation	Dec 14, 2021	Data AugmentationDiagnostic	CodeCode Available	1
Improving Contrastive Learning of Sentence Embeddings from AI Feedback	May 3, 2023	Contrastive LearningData Augmentation	CodeCode Available	1
Improving Contrastive Learning with Model Augmentation	Mar 25, 2022	Contrastive LearningData Augmentation	CodeCode Available	1
Unleashing the Power of Graph Data Augmentation on Covariate Distribution Shift	Nov 5, 2022	Data AugmentationGraph Classification	CodeCode Available	1
Circumventing Outliers of AutoAugment with Knowledge Distillation	Mar 25, 2020	Data AugmentationGeneral Classification	CodeCode Available	1
Improving Equivariance in State-of-the-Art Supervised Depth and Normal Predictors	Sep 28, 2023	Data Augmentation	CodeCode Available	1
Brain Tumor Segmentation and Radiomics Survival Prediction: Contribution to the BRATS 2017 Challenge	Feb 28, 2018	Brain Tumor SegmentationData Augmentation	CodeCode Available	1
3rd Place Solution to "Google Landmark Retrieval 2020"	Aug 24, 2020	ClusteringData Augmentation	CodeCode Available	1
Improving Generalizability of Graph Anomaly Detection Models via Data Augmentation	Jun 18, 2023	Anomaly DetectionData Augmentation	CodeCode Available	1
Improving Generalization in Reinforcement Learning with Mixture Regularization	Oct 21, 2020	Data AugmentationDeep Reinforcement Learning	CodeCode Available	1
Improving Model Generalization by Agreement of Learned Representations from Data Augmentation	Oct 20, 2021	Data Augmentationobject-detection	CodeCode Available	1
Breaking the Representation Bottleneck of Chinese Characters: Neural Machine Translation with Stroke Sequence Modeling	Nov 23, 2022	Data AugmentationMachine Translation	CodeCode Available	1
Break-It-Fix-It: Unsupervised Learning for Program Repair	Jun 11, 2021	C++ codeCode Repair	CodeCode Available	1
CipherDAug: Ciphertext based Data Augmentation for Neural Machine Translation	Apr 1, 2022	Data AugmentationMachine Translation	CodeCode Available	1
No Reason for No Supervision: Improved Generalization in Supervised Models	Jun 30, 2022	Data AugmentationSelf-Supervised Learning	CodeCode Available	1
Improving Whispered Speech Recognition Performance using Pseudo-whispered based Data Augmentation	Nov 9, 2023	Automatic Speech RecognitionAutomatic Speech Recognition (ASR)	CodeCode Available	1
Incorporating External Knowledge through Pre-training for Natural Language to Code Generation	Apr 20, 2020	Code GenerationData Augmentation	CodeCode Available	1
Incremental Generative Occlusion Adversarial Suppression Network for Person ReID	Apr 6, 2021	Data AugmentationPerson Re-Identification	CodeCode Available	1
Indiscriminate Poisoning Attacks on Unsupervised Contrastive Learning	Feb 22, 2022	Contrastive LearningData Augmentation	CodeCode Available	1
Controllable 3D Face Generation with Conditional Style Code Diffusion	Dec 21, 2023	Data AugmentationFace Generation	CodeCode Available	1
Contrastive Learning with Large Memory Bank and Negative Embedding Subtraction for Accurate Copy Detection	Dec 8, 2021	Contrastive LearningCopy Detection	CodeCode Available	1
Inside Out Visual Place Recognition	Nov 26, 2021	Data AugmentationVisual Place Recognition	CodeCode Available	1
Instance Credibility Inference for Few-Shot Learning	Mar 26, 2020	Data AugmentationFew-Shot Image Classification	CodeCode Available	1
Integrating Large Circular Kernels into CNNs through Neural Architecture Search	Jul 6, 2021	Data AugmentationNeural Architecture Search	CodeCode Available	1
Intent-aware Diffusion with Contrastive Learning for Sequential Recommendation	Apr 22, 2025	Contrastive LearningData Augmentation	CodeCode Available	1
Contrastive Learning of User Behavior Sequence for Context-Aware Document Ranking	Aug 24, 2021	Contrastive LearningData Augmentation	CodeCode Available	1
Interactive Data Synthesis for Systematic Vision Adaptation via LLMs-AIGCs Collaboration	May 22, 2023	Data AugmentationImage Generation	CodeCode Available	1
CL4CTR: A Contrastive Learning Framework for CTR Prediction	Dec 1, 2022	Click-Through Rate PredictionContrastive Learning	CodeCode Available	1
Invariance Analysis of Saliency Models versus Human Gaze During Scene Free Viewing	Oct 10, 2018	Data Augmentation	CodeCode Available	1
InverseCoder: Self-improving Instruction-Tuned Code LLMs with Inverse-Instruct	Jul 8, 2024	Code GenerationCode Summarization	CodeCode Available	1
Investigating Personalization Methods in Text to Music Generation	Sep 20, 2023	Data AugmentationMusic Generation	CodeCode Available	1
AnswerSumm: A Manually-Curated Dataset and Pipeline for Answer Summarization	Nov 11, 2021	Community Question AnsweringData Augmentation	CodeCode Available	1
IRCoder: Intermediate Representations Make Language Models Robust Multilingual Code Generators	Mar 6, 2024	Code CompletionCode Generation	CodeCode Available	1
BSUV-Net: A Fully-Convolutional Neural Network forBackground Subtraction of Unseen Videos	Jan 14, 2020	Data AugmentationObject Tracking	CodeCode Available	1
Is Artificial Intelligence Generated Image Detection a Solved Problem?	May 18, 2025	Data AugmentationImage Generation	CodeCode Available	1
7T MRI Synthesization from 3T Acquisitions	Mar 13, 2024	Data AugmentationImage Enhancement	CodeCode Available	1
It is AI's Turn to Ask Humans a Question: Question-Answer Pair Generation for Children's Story Books	Sep 8, 2021	Answer GenerationData Augmentation	CodeCode Available	1
It Takes Two to Tango: Mixup for Deep Metric Learning	Jun 9, 2021	Data AugmentationMetric Learning	CodeCode Available	1
Joint Appearance and Motion Learning for Efficient Rolling Shutter Correction	Jan 1, 2023	Data AugmentationDecoder	CodeCode Available	1
Jointly Learnable Data Augmentations for Self-Supervised GNNs	Aug 23, 2021	Data AugmentationGraph Representation Learning	CodeCode Available	1
Abstract Meaning Representation-Based Logic-Driven Data Augmentation for Logical Reasoning	May 21, 2023	Abstract Meaning RepresentationContrastive Learning	CodeCode Available	1
JUICER: Data-Efficient Imitation Learning for Robotic Assembly	Apr 4, 2024	Data AugmentationImitation Learning	CodeCode Available	1
AutoCLINT: The Winning Method in AutoCV Challenge 2019	May 9, 2020	BIG-bench Machine LearningData Augmentation	CodeCode Available	1

Show:10 25 50

← PrevPage 27 of 168Next →

All datasets ImageNet CIFAR-10 GA1457

Benchmark Results

#	Model	Metric	Claimed	Verified	Status
1	DeiT-B (+MixPro)	Accuracy (%)	82.9	—	Unverified
2	ResNet-200 (DeepAA)	Accuracy (%)	81.32	—	Unverified
3	DeiT-S (+MixPro)	Accuracy (%)	81.3	—	Unverified
4	ResNet-200 (Fast AA)	Accuracy (%)	80.6	—	Unverified
5	ResNet-200 (UA)	Accuracy (%)	80.4	—	Unverified
6	ResNet-200 (AA)	Accuracy (%)	80	—	Unverified
7	ResNet-50 (DeepAA)	Accuracy (%)	78.3	—	Unverified
8	ResNet-50 (TA wide)	Accuracy (%)	78.07	—	Unverified
9	ResNet-50 (LoRot-E)	Accuracy (%)	77.72	—	Unverified
10	ResNet-50 (LoRot-I)	Accuracy (%)	77.71	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	WideResNet-40-2 (Faster AA)	Percentage error	3.7	—	Unverified
2	Shake-Shake (26 2×32d) (Faster AA)	Percentage error	2.7	—	Unverified
3	WideResNet-28-10 (Faster AA)	Percentage error	2.6	—	Unverified
4	Shake-Shake (26 2×112d) (Faster AA)	Percentage error	2	—	Unverified
5	Shake-Shake (26 2×96d) (Faster AA)	Percentage error	2	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	DiffAug	Classification Accuracy	92.7	—	Unverified
2	PaCMAP	Classification Accuracy	85.3	—	Unverified
3	hNNE	Classification Accuracy	77.4	—	Unverified
4	TopoAE	Classification Accuracy	74.6	—	Unverified