Data Augmentation

Data augmentation involves techniques used for increasing the amount of data, based on different modifications, to expand the amount of examples in the original dataset. Data augmentation not only helps to grow the dataset but it also increases the diversity of the dataset. When training machine learning models, data augmentation acts as a regularizer and helps to avoid overfitting.

Data augmentation techniques have been found useful in domains like NLP and computer vision. In computer vision, transformations like cropping, flipping, and rotation are used. In NLP, data augmentation techniques can include swapping, deletion, random insertion, among others.

Papers

Recently Added Most Hyped Most Active Needs Verification Most Verified

Showing 8201–8250 of 8378 papers

Title	Date	Tasks	Status
Character-level HyperNetworks for Hate Speech Detection	Nov 11, 2021	Data AugmentationHate Speech Detection	CodeCode Available
ParaAMR: A Large-Scale Syntactically Diverse Paraphrase Dataset by AMR Back-Translation	May 26, 2023	Abstract Meaning RepresentationData Augmentation	CodeCode Available
Efficient Classification with Counterfactual Reasoning and Active Learning	Jul 25, 2022	Active LearningClassification	CodeCode Available
Parallel Grid Pooling for Data Augmentation	Mar 30, 2018	Data AugmentationGeneral Classification	CodeCode Available
A Systematic Evaluation of Recent Deep Learning Architectures for Fine-Grained Vehicle Classification	Jun 8, 2018	ClassificationData Augmentation	CodeCode Available
Adversarial Pulmonary Pathology Translation for Pairwise Chest X-ray Data Augmentation	Oct 11, 2019	Data AugmentationImage-to-Image Translation	CodeCode Available
Teaching with Commentaries	Nov 5, 2020	Data Augmentation	CodeCode Available
Channel Augmented Joint Learning for Visible-Infrared Recognition	Jan 1, 2021	Data AugmentationDiversity	CodeCode Available
Efficient Augmentation for Imbalanced Deep Learning	Jul 13, 2022	Data AugmentationDeep Learning	CodeCode Available
Weakly Supervised Deep Detection Networks	Nov 9, 2015	ClassificationData Augmentation	CodeCode Available
Changes in European Solidarity Before and During COVID-19: Evidence from a Large Crowd- and Expert-Annotated Twitter Dataset	Aug 2, 2021	Data Augmentation	CodeCode Available
Paraphrase Augmented Task-Oriented Dialog Generation	Apr 16, 2020	Data AugmentationResponse Generation	CodeCode Available
Chameleon: Foundation Models for Fairness-aware Multi-modal Data Augmentation to Enhance Coverage of Minorities	Feb 2, 2024	Data AugmentationFairness	CodeCode Available
ToW: Thoughts of Words Improve Reasoning in Large Language Models	Oct 21, 2024	Data AugmentationHallucination	CodeCode Available
Fine-tuning Partition-aware Item Similarities for Efficient and Scalable Recommendation	Jul 13, 2022	Collaborative FilteringData Augmentation	CodeCode Available
Effects of diversity incentives on sample diversity and downstream model performance in LLM-based text augmentation	Jan 12, 2024	Data AugmentationDiversity	CodeCode Available
Effective Rotation-invariant Point CNN with Spherical Harmonics kernels	Jun 27, 2019	Data Augmentation	CodeCode Available
Effective Image Tampering Localization with Multi-Scale ConvNeXt Feature Fusion	Aug 29, 2022	Data AugmentationDecoder	CodeCode Available
Effective Dual-Region Augmentation for Reduced Reliance on Large Amounts of Labeled Data	Apr 17, 2025	Data AugmentationDiversity	CodeCode Available
A Bayesian Data Augmentation Approach for Learning Deep Models	Oct 29, 2017	Data AugmentationGeneral Classification	CodeCode Available
Certified Robustness to Adversarial Word Substitutions	Sep 3, 2019	Data AugmentationNatural Language Inference	CodeCode Available
An Active Learning Approach for Reducing Annotation Cost in Skin Lesion Analysis	Sep 5, 2019	Active LearningData Augmentation	CodeCode Available
Universum-inspired Supervised Contrastive Learning	Apr 22, 2022	Contrastive LearningData Augmentation	CodeCode Available
AMPLIFY:Attention-based Mixup for Performance Improvement and Label Smoothing in Transformer	Sep 22, 2023	Data AugmentationSentence	CodeCode Available
Cell Segmentation by Combining Marker-Controlled Watershed and Deep Learning	Apr 3, 2020	Cell DetectionCell Segmentation	CodeCode Available
UniVision: A Unified Framework for Vision-Centric 3D Perception	Jan 13, 2024	Autonomous DrivingData Augmentation	CodeCode Available
CEB Improves Model Robustness	Feb 13, 2020	Adversarial RobustnessData Augmentation	CodeCode Available
PAS: Partial Additive Speech Data Augmentation Method for Noise Robust Speaker Verification	Jul 20, 2023	Data AugmentationSpeaker Verification	CodeCode Available
Team QUST at SemEval-2024 Task 8: A Comprehensive Study of Monolingual and Multilingual Approaches for Detecting AI-generated Text	Feb 19, 2024	Data Augmentation	CodeCode Available
Learning Representations by Maximizing Mutual Information Across Views	Jun 3, 2019	Data AugmentationImage Classification	CodeCode Available
PatchAugment: Local Neighborhood Augmentation in Point Cloud Classification	Oct 19, 2021	3D Point Cloud ClassificationClassification	CodeCode Available
EDDA: A Encoder-Decoder Data Augmentation Framework for Zero-Shot Stance Detection	Mar 23, 2024	Data AugmentationDecoder	CodeCode Available
CAVA: A Visual Analytics System for Exploratory Columnar Data Augmentation Using Knowledge Graphs	Sep 7, 2020	Data AugmentationKnowledge Graphs	CodeCode Available
Causal Optimal Transport of Abstractions	Dec 13, 2023	Data Augmentation	CodeCode Available
SenseShift6D: Multimodal RGB-D Benchmarking for Robust 6D Pose Estimation across Environment and Sensor Variations	Jul 8, 2025	6D Pose Estimation6D Pose Estimation using RGB	CodeCode Available
Technical Report: Combining knowledge from Transfer Learning during training and Wide Resnets	Jun 20, 2022	Data AugmentationTransfer Learning	CodeCode Available
Tracking Passengers and Baggage Items using Multi-camera Systems at Security Checkpoints	Jul 15, 2020	Data Augmentationobject-detection	CodeCode Available
Tracking Passengers and Baggage Items using Multiple Overhead Cameras at Security Checkpoints	Dec 31, 2022	Data AugmentationInstance Segmentation	CodeCode Available
Adversarial Momentum-Contrastive Pre-Training	Dec 24, 2020	Contrastive LearningData Augmentation	CodeCode Available
PathoWAve: A Deep Learning-based Weight Averaging Method for Improving Domain Generalization in Histopathology Images	Jun 21, 2024	Data AugmentationDecision Making	CodeCode Available
Word Embedding Perturbation for Sentence Classification	Apr 22, 2018	ClassificationData Augmentation	CodeCode Available
Tell Me How to Ask Again: Question Data Augmentation with Controllable Rewriting in Continuous Space	Oct 4, 2020	Data AugmentationMachine Reading Comprehension	CodeCode Available
Robust deep learning for eye fundus images: Bridging real and synthetic data for enhancing generalization	Mar 25, 2022	Data AugmentationGenerative Adversarial Network	CodeCode Available
Sentence-Level Resampling for Named Entity Recognition	Jul 1, 2022	Data Augmentationnamed-entity-recognition	CodeCode Available
SentiLARE: Sentiment-Aware Language Representation Learning with Linguistic Knowledge	Nov 6, 2019	Data AugmentationLanguage Modeling	CodeCode Available
PCC: Paraphrasing with Bottom-k Sampling and Cyclic Learning for Curriculum Data Augmentation	Aug 17, 2022	Data AugmentationDialogue Generation	CodeCode Available
tempoGAN: A Temporally Coherent, Volumetric GAN for Super-resolution Fluid Flow	Jan 29, 2018	Data AugmentationGenerative Adversarial Network	CodeCode Available
Sentiment Analysis on Financial News Headlines using Training Dataset Augmentation	Jul 29, 2017	Data Augmentationregression	CodeCode Available
PDE-based Group Equivariant Convolutional Neural Networks	Jan 24, 2020	Data AugmentationGPU	CodeCode Available
EDADepth: Enhanced Data Augmentation for Monocular Depth Estimation	Sep 10, 2024	Data AugmentationDepth Estimation	CodeCode Available

Show:10 25 50

← PrevPage 165 of 168Next →

All datasets ImageNet CIFAR-10 GA1457

Benchmark Results

#	Model	Metric	Claimed	Verified	Status
1	DeiT-B (+MixPro)	Accuracy (%)	82.9	—	Unverified
2	ResNet-200 (DeepAA)	Accuracy (%)	81.32	—	Unverified
3	DeiT-S (+MixPro)	Accuracy (%)	81.3	—	Unverified
4	ResNet-200 (Fast AA)	Accuracy (%)	80.6	—	Unverified
5	ResNet-200 (UA)	Accuracy (%)	80.4	—	Unverified
6	ResNet-200 (AA)	Accuracy (%)	80	—	Unverified
7	ResNet-50 (DeepAA)	Accuracy (%)	78.3	—	Unverified
8	ResNet-50 (TA wide)	Accuracy (%)	78.07	—	Unverified
9	ResNet-50 (LoRot-E)	Accuracy (%)	77.72	—	Unverified
10	ResNet-50 (LoRot-I)	Accuracy (%)	77.71	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	WideResNet-40-2 (Faster AA)	Percentage error	3.7	—	Unverified
2	Shake-Shake (26 2×32d) (Faster AA)	Percentage error	2.7	—	Unverified
3	WideResNet-28-10 (Faster AA)	Percentage error	2.6	—	Unverified
4	Shake-Shake (26 2×112d) (Faster AA)	Percentage error	2	—	Unverified
5	Shake-Shake (26 2×96d) (Faster AA)	Percentage error	2	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	DiffAug	Classification Accuracy	92.7	—	Unverified
2	PaCMAP	Classification Accuracy	85.3	—	Unverified
3	hNNE	Classification Accuracy	77.4	—	Unverified
4	TopoAE	Classification Accuracy	74.6	—	Unverified