Data Augmentation

Data augmentation involves techniques used for increasing the amount of data, based on different modifications, to expand the amount of examples in the original dataset. Data augmentation not only helps to grow the dataset but it also increases the diversity of the dataset. When training machine learning models, data augmentation acts as a regularizer and helps to avoid overfitting.

Data augmentation techniques have been found useful in domains like NLP and computer vision. In computer vision, transformations like cropping, flipping, and rotation are used. In NLP, data augmentation techniques can include swapping, deletion, random insertion, among others.

Papers

Recently Added Most Hyped Most Active Needs Verification Most Verified

Showing 3001–3050 of 8378 papers

Title	Date	Tasks	Status	Hype
With a Little Push, NLI Models can Robustly and Efficiently Predict Faithfulness	May 26, 2023	Data AugmentationQuestion Generation	CodeCode Available	0
GDA: Generative Data Augmentation Techniques for Relation Extraction Tasks	May 26, 2023	Data AugmentationRelation	—Unverified	0
An Empirical Comparison of LM-based Question and Answer Generation Methods	May 26, 2023	Answer GenerationData Augmentation	—Unverified	0
Diversify Your Vision Datasets with Automatic Diffusion-Based Augmentation	May 25, 2023	Data AugmentationDiversity	CodeCode Available	1
You Don't Have to Be Perfect to Be Amazing: Unveil the Utility of Synthetic Images	May 25, 2023	Data AugmentationImage Generation	—Unverified	0
PDE+: Enhancing Generalization via PDE with Adaptive Distributional Diffusion	May 25, 2023	Data Augmentation	CodeCode Available	1
Dynamic Data Augmentation via MCTS for Prostate MRI Segmentation	May 25, 2023	Data AugmentationGPU	CodeCode Available	0
VanillaKD: Revisit the Power of Vanilla Knowledge Distillation from Small Scale to Large Scale	May 25, 2023	Data AugmentationKnowledge Distillation	CodeCode Available	1
Cross-lingual Data Augmentation for Document-grounded Dialog Systems in Low Resource Languages	May 24, 2023	Data AugmentationDecoder	—Unverified	0
OverPrompt: Enhancing ChatGPT through Efficient In-Context Learning	May 24, 2023	Data AugmentationFact Checking	CodeCode Available	0
HARD: Hard Augmentations for Robust Distillation	May 24, 2023	Data AugmentationDomain Generalization	—Unverified	0
Training on Thin Air: Improve Image Classification with Generated Data	May 24, 2023	Data AugmentationFew-Shot Learning	CodeCode Available	1
Prompting Large Language Models for Counterfactual Generation: An Empirical Study	May 24, 2023	counterfactualData Augmentation	—Unverified	0
ICDAR 2023 Competition on Robust Layout Segmentation in Corporate Documents	May 24, 2023	Data Augmentation	—Unverified	0
Getting Sick After Seeing a Doctor? Diagnosing and Mitigating Knowledge Conflicts in Event Temporal Reasoning	May 24, 2023	counterfactualData Augmentation	CodeCode Available	0
SmartTrim: Adaptive Tokens and Attention Pruning for Efficient Vision-Language Models	May 24, 2023	Data Augmentation	CodeCode Available	0
Iteratively Improving Speech Recognition and Voice Conversion	May 24, 2023	Automatic Speech RecognitionAutomatic Speech Recognition (ASR)	—Unverified	0
Sorted Convolutional Network for Achieving Continuous Rotational Invariance	May 23, 2023	Data Augmentationimage-classification	—Unverified	0
Exploring Contrast Consistency of Open-Domain Question Answering Systems on Minimally Edited Questions	May 23, 2023	Data AugmentationLanguage Modeling	CodeCode Available	0
Siamese Masked Autoencoders	May 23, 2023	Data AugmentationDecoder	—Unverified	0
Conversational Recommendation as Retrieval: A Simple, Strong Baseline	May 23, 2023	Conversational RecommendationData Augmentation	—Unverified	0
Enhancing Black-Box Few-Shot Text Classification with Prompt-Based Data Augmentation	May 23, 2023	Data AugmentationFew-Shot Text Classification	—Unverified	0
Understanding Compositional Data Augmentation in Typologically Diverse Morphological Inflection	May 23, 2023	AttributeData Augmentation	CodeCode Available	0
LLM-powered Data Augmentation for Enhanced Cross-lingual Performance	May 23, 2023	Data Augmentation	CodeCode Available	0
Text Generation with Speech Synthesis for ASR Data Augmentation	May 22, 2023	Automatic Speech RecognitionAutomatic Speech Recognition (ASR)	—Unverified	0
Subspace-Configurable Networks	May 22, 2023	Audio Signal ProcessingData Augmentation	CodeCode Available	0
Self-Evolution Learning for Mixup: Enhance Data Augmentation on Few-Shot Text Classification Tasks	May 22, 2023	ClassificationData Augmentation	—Unverified	0
ConvBoost: Boosting ConvNets for Sensor-based Activity Recognition	May 22, 2023	Activity RecognitionData Augmentation	CodeCode Available	0
ColMix -- A Simple Data Augmentation Framework to Improve Object Detector Performance and Robustness in Aerial Images	May 22, 2023	Data AugmentationObject	—Unverified	0
Statistical Guarantees of Group-Invariant GANs	May 22, 2023	Data Augmentation	—Unverified	0
Improving Classifier Robustness through Active Generation of Pairwise Counterfactuals	May 22, 2023	counterfactualData Augmentation	—Unverified	0
Tied-Augment: Controlling Representation Similarity Improves Data Augmentation	May 22, 2023	Data Augmentation	CodeCode Available	1
Distilling Robustness into Natural Language Inference Models with Domain-Targeted Augmentation	May 22, 2023	Data AugmentationKnowledge Distillation	—Unverified	0
Tokenized Graph Transformer with Neighborhood Augmentation for Node Classification in Large Graphs	May 22, 2023	Data AugmentationGraph Representation Learning	—Unverified	0
Real-Aug: Realistic Scene Synthesis for LiDAR Augmentation in 3D Object Detection	May 22, 2023	3D Object DetectionData Augmentation	—Unverified	0
Interactive Data Synthesis for Systematic Vision Adaptation via LLMs-AIGCs Collaboration	May 22, 2023	Data AugmentationImage Generation	CodeCode Available	1
Revisiting Data Augmentation in Model Compression: An Empirical and Comprehensive Study	May 22, 2023	Data AugmentationKnowledge Distillation	—Unverified	0
Phased Data Augmentation for Training a Likelihood-Based Generative Model with Limited Data	May 22, 2023	Data Augmentation	—Unverified	0
PiVe: Prompting with Iterative Verification Improving Graph-based Generative Capability of LLMs	May 21, 2023	Data AugmentationGraph Generation	CodeCode Available	1
DualVC: Dual-mode Voice Conversion using Intra-model Knowledge Distillation and Hybrid Predictive Coding	May 21, 2023	Data AugmentationDecoder	—Unverified	0
Understanding the Effect of Data Augmentation on Knowledge Distillation	May 21, 2023	Data AugmentationKnowledge Distillation	—Unverified	0
Abstract Meaning Representation-Based Logic-Driven Data Augmentation for Logical Reasoning	May 21, 2023	Abstract Meaning RepresentationContrastive Learning	CodeCode Available	1
SIDAR: Synthetic Image Dataset for Alignment & Restoration	May 19, 2023	Data AugmentationDenoising	CodeCode Available	0
Boosting Crop Classification by Hierarchically Fusing Satellite, Rotational, and Contextual Data	May 19, 2023	Crop ClassificationData Augmentation	—Unverified	0
PASTS: Progress-Aware Spatio-Temporal Transformer Speaker For Vision-and-Language Navigation	May 19, 2023	Data AugmentationVision and Language Navigation	—Unverified	0
Enhancing Few-shot NER with Prompt Ordering based Data Augmentation	May 19, 2023	Data Augmentationfew-shot-ner	—Unverified	0
Data Augmentation for Diverse Voice Conversion in Noisy Environments	May 18, 2023	Data AugmentationDecoder	—Unverified	0
Cross-modality Data Augmentation for End-to-End Sign Language Translation	May 18, 2023	Data AugmentationKnowledge Distillation	CodeCode Available	1
Adaptive Graph Contrastive Learning for Recommendation	May 18, 2023	Collaborative FilteringContrastive Learning	CodeCode Available	1
RobustFair: Adversarial Evaluation through Fairness Confusion Directed Gradient Search	May 18, 2023	Data AugmentationFairness	CodeCode Available	0

Show:10 25 50

← PrevPage 61 of 168Next →

All datasets ImageNet CIFAR-10 GA1457

Benchmark Results

#	Model	Metric	Claimed	Verified	Status
1	DeiT-B (+MixPro)	Accuracy (%)	82.9	—	Unverified
2	ResNet-200 (DeepAA)	Accuracy (%)	81.32	—	Unverified
3	DeiT-S (+MixPro)	Accuracy (%)	81.3	—	Unverified
4	ResNet-200 (Fast AA)	Accuracy (%)	80.6	—	Unverified
5	ResNet-200 (UA)	Accuracy (%)	80.4	—	Unverified
6	ResNet-200 (AA)	Accuracy (%)	80	—	Unverified
7	ResNet-50 (DeepAA)	Accuracy (%)	78.3	—	Unverified
8	ResNet-50 (TA wide)	Accuracy (%)	78.07	—	Unverified
9	ResNet-50 (LoRot-E)	Accuracy (%)	77.72	—	Unverified
10	ResNet-50 (LoRot-I)	Accuracy (%)	77.71	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	WideResNet-40-2 (Faster AA)	Percentage error	3.7	—	Unverified
2	Shake-Shake (26 2×32d) (Faster AA)	Percentage error	2.7	—	Unverified
3	WideResNet-28-10 (Faster AA)	Percentage error	2.6	—	Unverified
4	Shake-Shake (26 2×112d) (Faster AA)	Percentage error	2	—	Unverified
5	Shake-Shake (26 2×96d) (Faster AA)	Percentage error	2	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	DiffAug	Classification Accuracy	92.7	—	Unverified
2	PaCMAP	Classification Accuracy	85.3	—	Unverified
3	hNNE	Classification Accuracy	77.4	—	Unverified
4	TopoAE	Classification Accuracy	74.6	—	Unverified