Data Augmentation

Data augmentation involves techniques used for increasing the amount of data, based on different modifications, to expand the amount of examples in the original dataset. Data augmentation not only helps to grow the dataset but it also increases the diversity of the dataset. When training machine learning models, data augmentation acts as a regularizer and helps to avoid overfitting.

Data augmentation techniques have been found useful in domains like NLP and computer vision. In computer vision, transformations like cropping, flipping, and rotation are used. In NLP, data augmentation techniques can include swapping, deletion, random insertion, among others.

Papers

Recently Added Most Hyped Most Active Needs Verification Most Verified

Showing 2001–2025 of 8378 papers

Title	Date	Tasks	Status	Hype
ExGRG: Explicitly-Generated Relation Graph for Self-Supervised Representation Learning	Feb 9, 2024	Data AugmentationGraph Generation	—Unverified	0
Neural Rendering based Urban Scene Reconstruction for Autonomous Driving	Feb 9, 2024	3D Object Detection3D Reconstruction	—Unverified	0
Evaluation Metrics for Text Data Augmentation in NLP	Feb 9, 2024	Data AugmentationText Augmentation	—Unverified	0
InternLM-Math: Open Math Large Language Models Toward Verifiable Reasoning	Feb 9, 2024	Data AugmentationGSM8K	CodeCode Available	4
Pushing Boundaries: Mixup's Influence on Neural Collapse	Feb 9, 2024	Data Augmentation	—Unverified	0
ExaRanker-Open: Synthetic Explanation for IR using Open-Source LLMs	Feb 9, 2024	Data AugmentationInformation Retrieval	CodeCode Available	1
Text Role Classification in Scientific Charts Using Multimodal Transformers	Feb 8, 2024	Data AugmentationDocument Layout Analysis	CodeCode Available	0
A Novel Approach to WaveNet Architecture for RF Signal Separation with Learnable Dilation and Data Augmentation	Feb 8, 2024	Data Augmentation	—Unverified	0
Neural Models for Source Code Synthesis and Completion	Feb 8, 2024	Code CompletionData Augmentation	—Unverified	0
SoftEDA: Rethinking Rule-Based Data Augmentation with Soft Labels	Feb 8, 2024	Data Augmentation	CodeCode Available	0
AutoAugment Is What You Need: Enhancing Rule-based Augmentation Methods in Low-resource Regimes	Feb 8, 2024	Data Augmentation	CodeCode Available	0
De-amplifying Bias from Differential Privacy in Language Model Fine-tuning	Feb 7, 2024	counterfactualData Augmentation	—Unverified	0
PAC Learnability under Explanation-Preserving Graph Perturbations	Feb 7, 2024	Data Augmentation	—Unverified	0
CodeIt: Self-Improving Language Models with Prioritized Hindsight Replay	Feb 7, 2024	ARCData Augmentation	CodeCode Available	1
SPARQL Generation: an analysis on fine-tuning OpenLLaMA for Question Answering over a Life Science Knowledge Graph	Feb 7, 2024	Data AugmentationKnowledge Graphs	CodeCode Available	1
UltraLink: An Open-Source Knowledge-Enhanced Multilingual Supervised Fine-tuning Dataset	Feb 7, 2024	Cross-Lingual TransferData Augmentation	CodeCode Available	1
Detection Transformer for Teeth Detection, Segmentation, and Numbering in Oral Rare Diseases: Focus on Data Augmentation and Inpainting Techniques	Feb 6, 2024	Data Augmentation	—Unverified	0
Improved Generalization of Weight Space Networks via Augmentations	Feb 6, 2024	Contrastive LearningData Augmentation	CodeCode Available	0
Polyp-DDPM: Diffusion-Based Semantic Polyp Synthesis for Enhanced Segmentation	Feb 6, 2024	Data AugmentationSegmentation	CodeCode Available	1
Shadowcast: Stealthy Data Poisoning Attacks Against Vision-Language Models	Feb 5, 2024	Data AugmentationData Poisoning	CodeCode Available	2
Adversarial Data Augmentation for Robust Speaker Verification	Feb 5, 2024	Data AugmentationSpeaker Verification	—Unverified	0
TimeSiam: A Pre-Training Framework for Siamese Time-Series Modeling	Feb 4, 2024	Contrastive LearningData Augmentation	CodeCode Available	1
DiffStitch: Boosting Offline Reinforcement Learning with Diffusion-based Trajectory Stitching	Feb 4, 2024	D4RLData Augmentation	—Unverified	0
Simulation-Enhanced Data Augmentation for Machine Learning Pathloss Prediction	Feb 3, 2024	Data AugmentationPrediction	—Unverified	0
Diabetes detection using deep learning techniques with oversampling and feature augmentation	Feb 3, 2024	Data Augmentation	—Unverified	0

Show:10 25 50

← PrevPage 81 of 336Next →

All datasets ImageNet CIFAR-10 GA1457

Benchmark Results

#	Model	Metric	Claimed	Verified	Status
1	DeiT-B (+MixPro)	Accuracy (%)	82.9	—	Unverified
2	ResNet-200 (DeepAA)	Accuracy (%)	81.32	—	Unverified
3	DeiT-S (+MixPro)	Accuracy (%)	81.3	—	Unverified
4	ResNet-200 (Fast AA)	Accuracy (%)	80.6	—	Unverified
5	ResNet-200 (UA)	Accuracy (%)	80.4	—	Unverified
6	ResNet-200 (AA)	Accuracy (%)	80	—	Unverified
7	ResNet-50 (DeepAA)	Accuracy (%)	78.3	—	Unverified
8	ResNet-50 (TA wide)	Accuracy (%)	78.07	—	Unverified
9	ResNet-50 (LoRot-E)	Accuracy (%)	77.72	—	Unverified
10	ResNet-50 (LoRot-I)	Accuracy (%)	77.71	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	WideResNet-40-2 (Faster AA)	Percentage error	3.7	—	Unverified
2	Shake-Shake (26 2×32d) (Faster AA)	Percentage error	2.7	—	Unverified
3	WideResNet-28-10 (Faster AA)	Percentage error	2.6	—	Unverified
4	Shake-Shake (26 2×112d) (Faster AA)	Percentage error	2	—	Unverified
5	Shake-Shake (26 2×96d) (Faster AA)	Percentage error	2	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	DiffAug	Classification Accuracy	92.7	—	Unverified
2	PaCMAP	Classification Accuracy	85.3	—	Unverified
3	hNNE	Classification Accuracy	77.4	—	Unverified
4	TopoAE	Classification Accuracy	74.6	—	Unverified