Data Augmentation

Data augmentation involves techniques used for increasing the amount of data, based on different modifications, to expand the amount of examples in the original dataset. Data augmentation not only helps to grow the dataset but it also increases the diversity of the dataset. When training machine learning models, data augmentation acts as a regularizer and helps to avoid overfitting.

Data augmentation techniques have been found useful in domains like NLP and computer vision. In computer vision, transformations like cropping, flipping, and rotation are used. In NLP, data augmentation techniques can include swapping, deletion, random insertion, among others.

Papers

Recently Added Most Hyped Most Active Needs Verification Most Verified

Showing 1951–2000 of 8378 papers

Title	Date	Tasks	Status	Hype
Leveraging ChatGPT in Pharmacovigilance Event Extraction: An Empirical Study	Feb 24, 2024	Data AugmentationEvent Extraction	CodeCode Available	0
GenCode: A Generic Data Augmentation Framework for Boosting Deep Learning-Based Code Understanding	Feb 24, 2024	Clone DetectionData Augmentation	—Unverified	0
Morphological Symmetries in Robotics	Feb 23, 2024	Data Augmentation	CodeCode Available	2
Entity-level Factual Adaptiveness of Fine-tuning based Abstractive Summarization Models	Feb 23, 2024	Abstractive Text SummarizationContrastive Learning	—Unverified	0
ChildAugment: Data Augmentation Methods for Zero-Resource Children's Speaker Verification	Feb 23, 2024	Data AugmentationSpeaker Verification	CodeCode Available	0
On Evaluation Protocols for Data Augmentation in a Limited Data Scenario	Feb 22, 2024	Data Augmentationtext-classification	—Unverified	0
Two-stage Cytopathological Image Synthesis for Augmenting Cervical Abnormality Screening	Feb 22, 2024	Cell DetectionData Augmentation	—Unverified	0
CyberDemo: Augmenting Simulated Human Demonstration for Real-World Dexterous Manipulation	Feb 22, 2024	Data AugmentationImitation Learning	—Unverified	0
LLM-DA: Data Augmentation via Large Language Models for Few-Shot Named Entity Recognition	Feb 22, 2024	Data Augmentationfew-shot-ner	—Unverified	0
Noise-BERT: A Unified Perturbation-Robust Framework with Noise Alignment Pre-training for Noisy Slot Filling Task	Feb 22, 2024	Adversarial AttackContrastive Learning	—Unverified	0
Dynamic Evaluation of Large Language Models by Meta Probing Agents	Feb 21, 2024	Data Augmentation	CodeCode Available	7
Retrieval-Augmented Data Augmentation for Low-Resource Domain Tasks	Feb 21, 2024	Data AugmentationRetrieval	—Unverified	0
Reliable LLM-based User Simulator for Task-Oriented Dialogue Systems	Feb 20, 2024	Data AugmentationTask-Oriented Dialogue Systems	—Unverified	0
A Survey on Knowledge Distillation of Large Language Models	Feb 20, 2024	Data AugmentationKnowledge Distillation	CodeCode Available	5
Code Needs Comments: Enhancing Code LLMs with Comment Augmentation	Feb 20, 2024	Data Augmentation	—Unverified	0
FormulaReasoning: A Dataset for Formula-Based Numerical Reasoning	Feb 20, 2024	Data AugmentationHigh School Physics	CodeCode Available	0
Plugin Speech Enhancement: A Universal Speech Enhancement Framework Inspired by Dynamic Neural Network	Feb 20, 2024	Data AugmentationSpeech Enhancement	—Unverified	0
CounterCurate: Enhancing Physical and Semantic Visio-Linguistic Compositional Reasoning via Counterfactual Examples	Feb 20, 2024	counterfactualData Augmentation	CodeCode Available	1
Regularization by denoising: Bayesian model and Langevin-within-split Gibbs sampling	Feb 19, 2024	Bayesian InferenceData Augmentation	—Unverified	0
Adversarial Feature Alignment: Balancing Robustness and Accuracy in Deep Learning via Adversarial Training	Feb 19, 2024	Contrastive LearningData Augmentation	—Unverified	0
Rock Classification Based on Residual Networks	Feb 19, 2024	ClassificationData Augmentation	—Unverified	0
Revisiting Data Augmentation in Deep Reinforcement Learning	Feb 19, 2024	Data AugmentationDeep Reinforcement Learning	CodeCode Available	0
ChatGPT Based Data Augmentation for Improved Parameter-Efficient Debiasing of LLMs	Feb 19, 2024	Data AugmentationFairness	CodeCode Available	0
HU at SemEval-2024 Task 8A: Can Contrastive Learning Learn Embeddings to Detect Machine-Generated Text?	Feb 19, 2024	Contrastive LearningData Augmentation	CodeCode Available	0
Team QUST at SemEval-2024 Task 8: A Comprehensive Study of Monolingual and Multilingual Approaches for Detecting AI-generated Text	Feb 19, 2024	Data Augmentation	CodeCode Available	0
Neighborhood-Enhanced Supervised Contrastive Learning for Collaborative Filtering	Feb 18, 2024	Collaborative FilteringContrastive Learning	CodeCode Available	2
Boosting Semi-Supervised 2D Human Pose Estimation by Revisiting Data Augmentation and Consistency Training	Feb 18, 2024	2D Human Pose EstimationData Augmentation	CodeCode Available	0
Balanced Data, Imbalanced Spectra: Unveiling Class Disparities with Spectral Imbalance	Feb 18, 2024	Data Augmentation	—Unverified	0
LEIA: Facilitating Cross-lingual Knowledge Transfer in Language Models with Entity-based Data Augmentation	Feb 18, 2024	Cross-Lingual TransferData Augmentation	CodeCode Available	1
Semi-supervised Medical Image Segmentation Method Based on Cross-pseudo Labeling Leveraging Strong and Weak Data Augmentation Strategies	Feb 17, 2024	Data AugmentationDiversity	CodeCode Available	1
A Practical Method for Generating String Counterfactuals	Feb 17, 2024	counterfactualData Augmentation	CodeCode Available	0
On Good Practices for Task-Specific Distillation of Large Pretrained Visual Models	Feb 17, 2024	Data AugmentationKnowledge Distillation	—Unverified	0
Parametric Augmentation for Time Series Contrastive Learning	Feb 16, 2024	Contrastive LearningData Augmentation	CodeCode Available	1
Data Augmentation and Transfer Learning Approaches Applied to Facial Expressions Recognition	Feb 15, 2024	Data AugmentationTransfer Learning	—Unverified	0
Selective Reflection-Tuning: Student-Selected Data Recycling for LLM Instruction-Tuning	Feb 15, 2024	Data AugmentationInstruction Following	CodeCode Available	3
Towards Precision Cardiovascular Analysis in Zebrafish: The ZACAF Paradigm	Feb 15, 2024	Data AugmentationTransfer Learning	—Unverified	0
Affine transformation estimation improves visual self-supervised learning	Feb 14, 2024	Data AugmentationSelf-Supervised Learning	—Unverified	0
WERank: Towards Rank Degradation Prevention for Self-Supervised Learning Using Weight Regularization	Feb 14, 2024	Data AugmentationSelf-Supervised Learning	—Unverified	0
Domain-adaptive and Subgroup-specific Cascaded Temperature Regression for Out-of-distribution Calibration	Feb 14, 2024	Data Augmentationregression	—Unverified	0
Evaluation of Activated Sludge Settling Characteristics from Microscopy Images with Deep Convolutional Neural Networks and Transfer Learning	Feb 14, 2024	Data AugmentationTransfer Learning	CodeCode Available	0
Improving Generalization in Semantic Parsing by Increasing Natural Language Variation	Feb 13, 2024	Data AugmentationSemantic Parsing	—Unverified	0
Advancing Data-driven Weather Forecasting: Time-Sliding Data Augmentation of ERA5	Feb 13, 2024	Data AugmentationWeather Forecasting	—Unverified	0
Inference Stage Denoising for Undersampled MRI Reconstruction	Feb 12, 2024	Data AugmentationDenoising	CodeCode Available	0
MAFIA: Multi-Adapter Fused Inclusive LanguAge Models	Feb 12, 2024	counterfactualData Augmentation	—Unverified	0
One Train for Two Tasks: An Encrypted Traffic Classification Framework Using Supervised Contrastive Learning	Feb 12, 2024	ClassificationContrastive Learning	CodeCode Available	2
Enhancing Multi-field B2B Cloud Solution Matching via Contrastive Pre-training	Feb 11, 2024	Data Augmentation	—Unverified	0
Generalizing Conversational Dense Retrieval via LLM-Cognition Data Augmentation	Feb 11, 2024	Contrastive LearningConversational Search	CodeCode Available	0
Understanding Test-Time Augmentation	Feb 10, 2024	Data Augmentation	—Unverified	0
For Better or For Worse? Learning Minimum Variance Features With Label Augmentation	Feb 10, 2024	Binary ClassificationClassification	—Unverified	0
CultureLLM: Incorporating Cultural Differences into Large Language Models	Feb 9, 2024	Data AugmentationPrompt Engineering	CodeCode Available	1

Show:10 25 50

← PrevPage 40 of 168Next →

All datasets ImageNet CIFAR-10 GA1457

Benchmark Results

#	Model	Metric	Claimed	Verified	Status
1	DeiT-B (+MixPro)	Accuracy (%)	82.9	—	Unverified
2	ResNet-200 (DeepAA)	Accuracy (%)	81.32	—	Unverified
3	DeiT-S (+MixPro)	Accuracy (%)	81.3	—	Unverified
4	ResNet-200 (Fast AA)	Accuracy (%)	80.6	—	Unverified
5	ResNet-200 (UA)	Accuracy (%)	80.4	—	Unverified
6	ResNet-200 (AA)	Accuracy (%)	80	—	Unverified
7	ResNet-50 (DeepAA)	Accuracy (%)	78.3	—	Unverified
8	ResNet-50 (TA wide)	Accuracy (%)	78.07	—	Unverified
9	ResNet-50 (LoRot-E)	Accuracy (%)	77.72	—	Unverified
10	ResNet-50 (LoRot-I)	Accuracy (%)	77.71	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	WideResNet-40-2 (Faster AA)	Percentage error	3.7	—	Unverified
2	Shake-Shake (26 2×32d) (Faster AA)	Percentage error	2.7	—	Unverified
3	WideResNet-28-10 (Faster AA)	Percentage error	2.6	—	Unverified
4	Shake-Shake (26 2×112d) (Faster AA)	Percentage error	2	—	Unverified
5	Shake-Shake (26 2×96d) (Faster AA)	Percentage error	2	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	DiffAug	Classification Accuracy	92.7	—	Unverified
2	PaCMAP	Classification Accuracy	85.3	—	Unverified
3	hNNE	Classification Accuracy	77.4	—	Unverified
4	TopoAE	Classification Accuracy	74.6	—	Unverified