Data Augmentation

Data augmentation involves techniques used for increasing the amount of data, based on different modifications, to expand the amount of examples in the original dataset. Data augmentation not only helps to grow the dataset but it also increases the diversity of the dataset. When training machine learning models, data augmentation acts as a regularizer and helps to avoid overfitting.

Data augmentation techniques have been found useful in domains like NLP and computer vision. In computer vision, transformations like cropping, flipping, and rotation are used. In NLP, data augmentation techniques can include swapping, deletion, random insertion, among others.

Papers

Recently Added Most Hyped Most Active Needs Verification Most Verified

Showing 2351–2400 of 8378 papers

Title	Date	Tasks	Status	Score
HumVI: A Multilingual Dataset for Detecting Violent Incidents Impacting Humanitarian Aid	Oct 8, 2024	ArticlesData Augmentation	CodeCode Available	5
HULAT at SemEval-2023 Task 10: Data augmentation for pre-trained transformers applied to the detection of sexism in social media	Feb 24, 2023	Data Augmentation	CodeCode Available	5
HULAT at SemEval-2023 Task 9: Data augmentation for pre-trained transformers applied to Multilingual Tweet Intimacy Analysis	Feb 24, 2023	Data AugmentationPosition	CodeCode Available	5
Adversarial Auto-Augment with Label Preservation: A Representation Learning Principle Guided Approach	Nov 2, 2022	Data AugmentationRepresentation Learning	CodeCode Available	5
Bootstrap Advantage Estimation for Policy Optimization in Reinforcement Learning	Oct 13, 2022	Data Augmentationreinforcement-learning	CodeCode Available	5
HU at SemEval-2024 Task 8A: Can Contrastive Learning Learn Embeddings to Detect Machine-Generated Text?	Feb 19, 2024	Contrastive LearningData Augmentation	CodeCode Available	5
Iceberg: Enhancing HLS Modeling with Synthetic Data	Jul 14, 2025	Data AugmentationHigh-Level Synthesis	CodeCode Available	5
An ordinal CNN approach for the assessment of neurological damage in Parkinson's disease patients	May 31, 2021	Data Augmentation	CodeCode Available	5
How Well Do Multi-hop Reading Comprehension Models Understand Date Information?	Oct 11, 2022	Data AugmentationMulti-Hop Reading Comprehension	CodeCode Available	5
Boosting Semi-Supervised 3D Object Detection with Semi-Sampling	Nov 14, 2022	3D Object DetectionData Augmentation	CodeCode Available	5
Boosting Semi-Supervised 2D Human Pose Estimation by Revisiting Data Augmentation and Consistency Training	Feb 18, 2024	2D Human Pose EstimationData Augmentation	CodeCode Available	5
How to Solve Contextual Goal-Oriented Problems with Offline Datasets?	Aug 14, 2024	Data Augmentation	CodeCode Available	5
How Should Markup Tags Be Translated?	Nov 1, 2020	Data AugmentationMachine Translation	CodeCode Available	5
1Cademy @ Causal News Corpus 2022: Enhance Causal Span Detection via Beam-Search-based Position Selector	Oct 31, 2022	Data AugmentationLanguage Modeling	CodeCode Available	5
How to track your dragon: A Multi-Attentional Framework for real-time RGB-D 6-DOF Object Pose Tracking	Apr 21, 2020	Data AugmentationObject Tracking	CodeCode Available	5
HSDA: High-frequency Shuffle Data Augmentation for Bird's-Eye-View Map Segmentation	Dec 9, 2024	Autonomous DrivingData Augmentation	CodeCode Available	5
How Explanations Leak the Decision Logic: Stealing Graph Neural Networks via Explanation Alignment	Jun 3, 2025	Data AugmentationDrug Discovery	CodeCode Available	5
Boosting Novel Category Discovery Over Domains with Soft Contrastive Learning and All in One Classifier	Jan 1, 2023	AllContrastive Learning	CodeCode Available	5
How Good Are Synthetic Medical Images? An Empirical Study with Lung Ultrasound	Oct 5, 2023	Data AugmentationMedical Image Analysis	CodeCode Available	5
Annotating FrameNet via Structure-Conditioned Language Generation	Jun 7, 2024	Data AugmentationSemantic Role Labeling	CodeCode Available	5
How Do We Fail? Stress Testing Perception in Autonomous Vehicles	Mar 26, 2022	Autonomous VehiclesData Augmentation	CodeCode Available	5
Holistic Exploration on Universal Decompositional Semantic Parsing: Architecture, Data Augmentation, and LLM Paradigm	Jul 25, 2023	AttributeData Augmentation	CodeCode Available	5
HitNet: a neural network with capsules embedded in a Hit-or-Miss layer, extended with hybrid data augmentation and ghost capsules	Jun 18, 2018	Data Augmentation	CodeCode Available	5
HIT-SCIR at MMNLU-22: Consistency Regularization for Multilingual Spoken Language Understanding	Jan 5, 2023	Data AugmentationIntent Detection	CodeCode Available	5
Hotels-50K: A Global Hotel Recognition Dataset	Jan 26, 2019	Data Augmentation	CodeCode Available	5
How Robust is 3D Human Pose Estimation to Occlusion?	Aug 28, 2018	3D Human Pose Estimation3D Pose Estimation	CodeCode Available	5
Learning Stage-wise GANs for Whistle Extraction in Time-Frequency Spectrograms	Apr 5, 2023	Data Augmentation	CodeCode Available	5
Boosting High Resolution Image Classification with Scaling-up Transformers	Sep 26, 2023	ClassificationData Augmentation	CodeCode Available	5
An Investigation of Time Reversal Symmetry in Reinforcement Learning	Nov 28, 2023	Data AugmentationFriction	CodeCode Available	5
Boosting Distress Support Dialogue Responses with Motivational Interviewing Strategy	May 17, 2023	ChatbotData Augmentation	CodeCode Available	5
Adverb Is the Key: Simple Text Data Augmentation with Adverb Deletion	Mar 29, 2024	Data AugmentationNatural Language Inference	CodeCode Available	5
Boosting Disfluency Detection with Large Language Model as Disfluency Generator	Mar 13, 2024	Data AugmentationLanguage Modeling	CodeCode Available	5
An Inflectional Database for Gitksan	Jun 1, 2022	Data AugmentationHallucination	CodeCode Available	5
Hierarchical Transformer Model for Scientific Named Entity Recognition	Mar 28, 2022	Data Augmentationgraph construction	CodeCode Available	5
An Improved StarGAN for Emotional Voice Conversion: Enhancing Voice Quality and Data Augmentation	Jul 18, 2021	Data AugmentationEmotion Recognition	CodeCode Available	5
High-dimensional Bayesian Tobit regression for censored response with Horseshoe prior	May 13, 2025	Data Augmentationregression	CodeCode Available	5
Hide-and-Seek: A Data Augmentation Technique for Weakly-Supervised Localization and Beyond	Nov 6, 2018	Action LocalizationData Augmentation	CodeCode Available	5
HiddenCut: Simple Data Augmentation for Natural Language Understanding with Better Generalizability	Aug 1, 2021	Data AugmentationNatural Language Understanding	CodeCode Available	5
HiddenCut: Simple Data Augmentation for Natural Language Understanding with Better Generalization	May 31, 2021	Data AugmentationNatural Language Understanding	CodeCode Available	5
HELP: A Dataset for Identifying Shortcomings of Neural Models in Monotonicity Reasoning	Apr 27, 2019	Data AugmentationNatural Language Inference	CodeCode Available	5
Boost-and-Skip: A Simple Guidance-Free Diffusion for Minority Generation	Feb 10, 2025	Data Augmentation	CodeCode Available	5
Heavy Lasso: sparse penalized regression under heavy-tailed noise via data-augmented soft-thresholding	Jun 9, 2025	Data Augmentation	CodeCode Available	5
Heterogeneous Multi-Task Gaussian Cox Processes	Aug 29, 2023	Bayesian InferenceData Augmentation	CodeCode Available	5
Harnessing Out-Of-Distribution Examples via Augmenting Content and Style	Jul 7, 2022	Data AugmentationDisentanglement	CodeCode Available	5
Harnessing Collective Structure Knowledge in Data Augmentation for Graph Neural Networks	May 17, 2024	Anomaly DetectionData Augmentation	CodeCode Available	5
HCDG: A Hierarchical Consistency Framework for Domain Generalization on Medical Image Segmentation	Sep 13, 2021	Data AugmentationDomain Generalization	CodeCode Available	5
Person Re-identification: Implicitly Defining the Receptive Fields of Deep Learning Classification Frameworks	Jan 30, 2020	Data AugmentationGeneral Classification	CodeCode Available	5
Head and Neck Tumor Segmentation of MRI from Pre- and Mid-radiotherapy with Pre-training, Data Augmentation and Dual Flow UNet	Dec 19, 2024	Data AugmentationSegmentation	CodeCode Available	5
BLT: Balancing Long-Tailed Datasets with Adversarially-Perturbed Images	Oct 30, 2020	Data AugmentationImage Generation	CodeCode Available	5
An Image Clustering Auto-Encoder Based on Predefined Evenly-Distributed Class Centroids and MMD Distance	Jun 10, 2019	ClusteringData Augmentation	CodeCode Available	5

Show:10 25 50

← PrevPage 48 of 168Next →

All datasets ImageNet CIFAR-10 GA1457

Benchmark Results

#	Model	Metric	Claimed	Verified	Status
1	DeiT-B (+MixPro)	Accuracy (%)	82.9	—	Unverified
2	ResNet-200 (DeepAA)	Accuracy (%)	81.32	—	Unverified
3	DeiT-S (+MixPro)	Accuracy (%)	81.3	—	Unverified
4	ResNet-200 (Fast AA)	Accuracy (%)	80.6	—	Unverified
5	ResNet-200 (UA)	Accuracy (%)	80.4	—	Unverified
6	ResNet-200 (AA)	Accuracy (%)	80	—	Unverified
7	ResNet-50 (DeepAA)	Accuracy (%)	78.3	—	Unverified
8	ResNet-50 (TA wide)	Accuracy (%)	78.07	—	Unverified
9	ResNet-50 (LoRot-E)	Accuracy (%)	77.72	—	Unverified
10	ResNet-50 (LoRot-I)	Accuracy (%)	77.71	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	WideResNet-40-2 (Faster AA)	Percentage error	3.7	—	Unverified
2	Shake-Shake (26 2×32d) (Faster AA)	Percentage error	2.7	—	Unverified
3	WideResNet-28-10 (Faster AA)	Percentage error	2.6	—	Unverified
4	Shake-Shake (26 2×112d) (Faster AA)	Percentage error	2	—	Unverified
5	Shake-Shake (26 2×96d) (Faster AA)	Percentage error	2	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	DiffAug	Classification Accuracy	92.7	—	Unverified
2	PaCMAP	Classification Accuracy	85.3	—	Unverified
3	hNNE	Classification Accuracy	77.4	—	Unverified
4	TopoAE	Classification Accuracy	74.6	—	Unverified