Data Augmentation

Data augmentation involves techniques used for increasing the amount of data, based on different modifications, to expand the amount of examples in the original dataset. Data augmentation not only helps to grow the dataset but it also increases the diversity of the dataset. When training machine learning models, data augmentation acts as a regularizer and helps to avoid overfitting.

Data augmentation techniques have been found useful in domains like NLP and computer vision. In computer vision, transformations like cropping, flipping, and rotation are used. In NLP, data augmentation techniques can include swapping, deletion, random insertion, among others.

Papers

Recently Added Most Hyped Most Active Needs Verification Most Verified

Showing 301–350 of 8378 papers

Title	Date	Tasks	Status	Hype
MM-KWS: Multi-modal Prompts for Multilingual User-defined Keyword Spotting	Jun 11, 2024	Data AugmentationKeyword Spotting	CodeCode Available	1
3D MRI Synthesis with Slice-Based Latent Diffusion Models: Improving Tumor Segmentation Tasks in Data-Scarce Regimes	Jun 8, 2024	Data AugmentationImage Generation	CodeCode Available	1
TabPFGen -- Tabular Data Generation with TabPFN	Jun 7, 2024	Data AugmentationImputation	CodeCode Available	1
Diff-Mosaic: Augmenting Realistic Representations in Infrared Small Target Detection via Diffusion Prior	Jun 2, 2024	Data AugmentationDiversity	CodeCode Available	1
Diffusion-based Image Generation for In-distribution Data Augmentation in Surface Defect Detection	Jun 1, 2024	Data AugmentationDefect Detection	CodeCode Available	1
Causal Action Influence Aware Counterfactual Data Augmentation	May 29, 2024	counterfactualCounterfactual Reasoning	CodeCode Available	1
GTA: Generative Trajectory Augmentation with Guidance for Offline Reinforcement Learning	May 27, 2024	Data AugmentationDecision Making	CodeCode Available	1
A Recipe for Unbounded Data Augmentation in Visual Reinforcement Learning	May 27, 2024	Data AugmentationQ-Learning	CodeCode Available	1
USD: Unsupervised Soft Contrastive Learning for Fault Detection in Multivariate Time Series	May 25, 2024	Contrastive LearningData Augmentation	CodeCode Available	1
Membership Inference on Text-to-Image Diffusion Models via Conditional Likelihood Discrepancy	May 23, 2024	Data AugmentationImage Generation	CodeCode Available	1
Boosted Neural Decoders: Achieving Extreme Reliability of LDPC Codes for 6G Networks	May 22, 2024	Data AugmentationDecoder	CodeCode Available	1
Mosaic-IT: Free Compositional Data Augmentation Improves Instruction Tuning	May 22, 2024	Data AugmentationDiversity	CodeCode Available	1
Simultaneous Masking, Not Prompting Optimization: A Paradigm Shift in Fine-tuning LLMs for Simultaneous Translation	May 16, 2024	Data AugmentationTranslation	CodeCode Available	1
Cross-Domain Feature Augmentation for Domain Generalization	May 14, 2024	Data AugmentationDiversity	CodeCode Available	1
ACTION: Augmentation and Computation Toolbox for Brain Network Analysis with Functional MRI	May 10, 2024	Data AugmentationFederated Learning	CodeCode Available	1
Universal Adversarial Perturbations for Vision-Language Pre-trained Models	May 9, 2024	Adversarial AttackAdversarial Robustness	CodeCode Available	1
THRONE: An Object-based Hallucination Benchmark for the Free-form Generations of Large Vision-Language Models	May 8, 2024	AttributeData Augmentation	CodeCode Available	1
AugmenTory: A Fast and Flexible Polygon Augmentation Library	May 7, 2024	Data AugmentationInstance Segmentation	CodeCode Available	1
Provably Unlearnable Data Examples	May 6, 2024	Data Augmentation	CodeCode Available	1
KID-PPG: Knowledge Informed Deep Learning for Extracting Heart Rate from a Smartwatch	May 2, 2024	Data AugmentationDeep Learning	CodeCode Available	1
RaffeSDG: Random Frequency Filtering enabled Single-source Domain Generalization for Medical Image Segmentation	May 2, 2024	Data AugmentationDomain Generalization	CodeCode Available	1
AAPL: Adding Attributes to Prompt Learning for Vision-Language Models	Apr 25, 2024	Data AugmentationDomain Generalization	CodeCode Available	1
MambaPupil: Bidirectional Selective Recurrent model for Event-based Eye tracking	Apr 18, 2024	Data AugmentationDiversity	CodeCode Available	1
The Victim and The Beneficiary: Exploiting a Poisoned Model to Train a Clean Model on Poisoned Data	Apr 17, 2024	Data Augmentationmodel	CodeCode Available	1
RoofDiffusion: Constructing Roofs from Severely Corrupted Point Data via Diffusion	Apr 14, 2024	BenchmarkingData Augmentation	CodeCode Available	1
An evaluation framework for synthetic data generation models	Apr 13, 2024	Data AugmentationSynthetic Data Generation	CodeCode Available	1
FashionFail: Addressing Failure Cases in Fashion Object Detection and Segmentation	Apr 12, 2024	Data AugmentationObject Detection	CodeCode Available	1
AnnoCTR: A Dataset for Detecting and Linking Entities, Tactics, and Techniques in Cyber Threat Reports	Apr 11, 2024	Data Augmentation	CodeCode Available	1
ORacle: Large Vision-Language Models for Knowledge-Guided Holistic OR Domain Modeling	Apr 10, 2024	Data AugmentationGraph Generation	CodeCode Available	1
FPL+: Filtered Pseudo Label-based Unsupervised Cross-Modality Adaptation for 3D Medical Image Segmentation	Apr 7, 2024	Data AugmentationDomain Adaptation	CodeCode Available	1
PairAug: What Can Augmented Image-Text Pairs Do for Radiology?	Apr 7, 2024	Data Augmentationimage-classification	CodeCode Available	1
JUICER: Data-Efficient Imitation Learning for Robotic Assembly	Apr 4, 2024	Data AugmentationImitation Learning	CodeCode Available	1
LiteNeXt: A Novel Lightweight ConvMixer-based Model with Self-embedding Representation Parallel for Medical Image Segmentation	Apr 4, 2024	Data AugmentationDecoder	CodeCode Available	1
ContrastCAD: Contrastive Learning-based Representation Learning for Computer-Aided Design Models	Apr 2, 2024	Contrastive LearningData Augmentation	CodeCode Available	1
Source-Aware Training Enables Knowledge Attribution in Language Models	Apr 1, 2024	Data Augmentation	CodeCode Available	1
Enhance Image Classification via Inter-Class Image Mixup with Diffusion Model	Mar 28, 2024	Data AugmentationDiversity	CodeCode Available	1
GeNet: A Graph Neural Network-based Anti-noise Task-Oriented Semantic Communication Paradigm	Mar 27, 2024	Data AugmentationDecoder	CodeCode Available	1
MMIDR: Teaching Large Language Model to Interpret Multimodal Misinformation via Knowledge Distillation	Mar 21, 2024	Data AugmentationDecision Making	CodeCode Available	1
RigorLLM: Resilient Guardrails for Large Language Models against Undesired Content	Mar 19, 2024	Data Augmentation	CodeCode Available	1
TexTile: A Differentiable Metric for Texture Tileability	Mar 19, 2024	Data AugmentationMetric Learning	CodeCode Available	1
DreamDA: Generative Data Augmentation with Diffusion Models	Mar 19, 2024	Data AugmentationDiversity	CodeCode Available	1
Do Generated Data Always Help Contrastive Learning?	Mar 19, 2024	Contrastive LearningData Augmentation	CodeCode Available	1
SETA: Semantic-Aware Token Augmentation for Domain Generalization	Mar 18, 2024	Data AugmentationDomain Generalization	CodeCode Available	1
GenView: Enhancing View Quality with Pretrained Generative Model for Self-Supervised Learning	Mar 18, 2024	Contrastive LearningData Augmentation	CodeCode Available	1
Scaling Data Diversity for Fine-Tuning Language Models in Human Alignment	Mar 17, 2024	Data AugmentationDiversity	CodeCode Available	1
Is Contrastive Learning Necessary? A Study of Data Augmentation vs Contrastive Learning in Sequential Recommendation	Mar 17, 2024	Contrastive LearningData Augmentation	CodeCode Available	1
YOLOv9 for Fracture Detection in Pediatric Wrist Trauma X-ray Images	Mar 17, 2024	Data AugmentationFracture detection	CodeCode Available	1
SF(DA)^2: Source-free Domain Adaptation Through the Lens of Data Augmentation	Mar 16, 2024	Data AugmentationDisentanglement	CodeCode Available	1
EquiAV: Leveraging Equivariance for Audio-Visual Contrastive Learning	Mar 14, 2024	Audio Classificationaudio-visual learning	CodeCode Available	1
EventRPG: Event Data Augmentation with Relevance Propagation Guidance	Mar 14, 2024	Action RecognitionData Augmentation	CodeCode Available	1

Show:10 25 50

← PrevPage 7 of 168Next →

All datasets ImageNet CIFAR-10 GA1457

Benchmark Results

#	Model	Metric	Claimed	Verified	Status
1	DeiT-B (+MixPro)	Accuracy (%)	82.9	—	Unverified
2	ResNet-200 (DeepAA)	Accuracy (%)	81.32	—	Unverified
3	DeiT-S (+MixPro)	Accuracy (%)	81.3	—	Unverified
4	ResNet-200 (Fast AA)	Accuracy (%)	80.6	—	Unverified
5	ResNet-200 (UA)	Accuracy (%)	80.4	—	Unverified
6	ResNet-200 (AA)	Accuracy (%)	80	—	Unverified
7	ResNet-50 (DeepAA)	Accuracy (%)	78.3	—	Unverified
8	ResNet-50 (TA wide)	Accuracy (%)	78.07	—	Unverified
9	ResNet-50 (LoRot-E)	Accuracy (%)	77.72	—	Unverified
10	ResNet-50 (LoRot-I)	Accuracy (%)	77.71	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	WideResNet-40-2 (Faster AA)	Percentage error	3.7	—	Unverified
2	Shake-Shake (26 2×32d) (Faster AA)	Percentage error	2.7	—	Unverified
3	WideResNet-28-10 (Faster AA)	Percentage error	2.6	—	Unverified
4	Shake-Shake (26 2×112d) (Faster AA)	Percentage error	2	—	Unverified
5	Shake-Shake (26 2×96d) (Faster AA)	Percentage error	2	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	DiffAug	Classification Accuracy	92.7	—	Unverified
2	PaCMAP	Classification Accuracy	85.3	—	Unverified
3	hNNE	Classification Accuracy	77.4	—	Unverified
4	TopoAE	Classification Accuracy	74.6	—	Unverified