Data Augmentation

Data augmentation involves techniques used for increasing the amount of data, based on different modifications, to expand the amount of examples in the original dataset. Data augmentation not only helps to grow the dataset but it also increases the diversity of the dataset. When training machine learning models, data augmentation acts as a regularizer and helps to avoid overfitting.

Data augmentation techniques have been found useful in domains like NLP and computer vision. In computer vision, transformations like cropping, flipping, and rotation are used. In NLP, data augmentation techniques can include swapping, deletion, random insertion, among others.

Papers

Recently Added Most Hyped Most Active Needs Verification Most Verified

Showing 2426–2450 of 8378 papers

Title	Date	Tasks	Status	Hype
Diffusion-based Data Augmentation for Nuclei Image Segmentation	Oct 22, 2023	Data AugmentationImage Generation	CodeCode Available	1
Intent Contrastive Learning with Cross Subsequences for Sequential Recommendation	Oct 22, 2023	Contrastive LearningData Augmentation	CodeCode Available	1
Text generation for dataset augmentation in security classification tasks	Oct 22, 2023	Data AugmentationFraud Detection	CodeCode Available	1
PromptMix: A Class Boundary Augmentation Method for Large Language Model Distillation	Oct 22, 2023	Data AugmentationLanguage Modeling	CodeCode Available	1
Toward Generative Data Augmentation for Traffic Classification	Oct 21, 2023	ClassificationData Augmentation	—Unverified	0
Filling the Missing: Exploring Generative AI for Enhanced Federated Learning over Heterogeneous Mobile Edge Devices	Oct 21, 2023	Data AugmentationFederated Learning	—Unverified	0
Data-Free Knowledge Distillation Using Adversarially Perturbed OpenGL Shader Images	Oct 20, 2023	Data AugmentationData-free Knowledge Distillation	—Unverified	0
DIG-MILP: a Deep Instance Generator for Mixed-Integer Linear Programming with Feasibility Guarantee	Oct 20, 2023	Data Augmentation	CodeCode Available	1
A Quality-based Syntactic Template Retriever for Syntactically-controlled Paraphrase Generation	Oct 20, 2023	Data AugmentationDiversity	CodeCode Available	0
GraphGPT: Graph Instruction Tuning for Large Language Models	Oct 19, 2023	Data AugmentationGraph Learning	CodeCode Available	2
A Car Model Identification System for Streamlining the Automobile Sales Process	Oct 19, 2023	Data Augmentation	—Unverified	0
A Distributed Approach to Meteorological Predictions: Addressing Data Imbalance in Precipitation Prediction Models through Federated Learning and GANs	Oct 19, 2023	Data AugmentationFederated Learning	—Unverified	0
Unsupervised Candidate Answer Extraction through Differentiable Masker-Reconstructor Model	Oct 19, 2023	Data AugmentationQuestion Generation	—Unverified	0
Data Augmentations for Improved (Large) Language Model Generalization	Oct 19, 2023	Attributecounterfactual	—Unverified	0
OODRobustBench: a Benchmark and Large-Scale Analysis of Adversarial Robustness under Distribution Shift	Oct 19, 2023	Adversarial RobustnessBenchmarking	CodeCode Available	1
EmoDiarize: Speaker Diarization and Emotion Identification from Speech Signals using Convolutional Neural Networks	Oct 19, 2023	Data AugmentationEmotion Recognition	—Unverified	0
DiffBoost: Enhancing Medical Image Segmentation via Text-Guided Diffusion Model	Oct 19, 2023	Data AugmentationImage Generation	CodeCode Available	1
AUC-mixup: Deep AUC Maximization with Mixup	Oct 18, 2023	Data Augmentation	—Unverified	0
MixEdit: Revisiting Data Augmentation and Beyond for Grammatical Error Correction	Oct 18, 2023	Data AugmentationDiversity	CodeCode Available	1
CLARA: Multilingual Contrastive Learning for Audio Representation Acquisition	Oct 18, 2023	Audio ClassificationContrastive Learning	CodeCode Available	1
Enhancing Spoofing Speech Detection Using Rhythm Information	Oct 18, 2023	Data AugmentationRhythm	—Unverified	0
DASA: Difficulty-Aware Semantic Augmentation for Speaker Verification	Oct 18, 2023	Data AugmentationDiversity	—Unverified	0
Panoptic Out-of-Distribution Segmentation	Oct 18, 2023	Data AugmentationInstance Segmentation	—Unverified	0
ChapGTP, ILLC's Attempt at Raising a BabyLM: Improving Data Efficiency by Automatic Task Formation	Oct 17, 2023	Data AugmentationLanguage Modeling	—Unverified	0
Self-supervision meets kernel graph neural models: From architecture to augmentations	Oct 17, 2023	Data AugmentationGraph Classification	—Unverified	0

Show:10 25 50

← PrevPage 98 of 336Next →

All datasets ImageNet CIFAR-10 GA1457

Benchmark Results

#	Model	Metric	Claimed	Verified	Status
1	DeiT-B (+MixPro)	Accuracy (%)	82.9	—	Unverified
2	ResNet-200 (DeepAA)	Accuracy (%)	81.32	—	Unverified
3	DeiT-S (+MixPro)	Accuracy (%)	81.3	—	Unverified
4	ResNet-200 (Fast AA)	Accuracy (%)	80.6	—	Unverified
5	ResNet-200 (UA)	Accuracy (%)	80.4	—	Unverified
6	ResNet-200 (AA)	Accuracy (%)	80	—	Unverified
7	ResNet-50 (DeepAA)	Accuracy (%)	78.3	—	Unverified
8	ResNet-50 (TA wide)	Accuracy (%)	78.07	—	Unverified
9	ResNet-50 (LoRot-E)	Accuracy (%)	77.72	—	Unverified
10	ResNet-50 (LoRot-I)	Accuracy (%)	77.71	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	WideResNet-40-2 (Faster AA)	Percentage error	3.7	—	Unverified
2	Shake-Shake (26 2×32d) (Faster AA)	Percentage error	2.7	—	Unverified
3	WideResNet-28-10 (Faster AA)	Percentage error	2.6	—	Unverified
4	Shake-Shake (26 2×112d) (Faster AA)	Percentage error	2	—	Unverified
5	Shake-Shake (26 2×96d) (Faster AA)	Percentage error	2	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	DiffAug	Classification Accuracy	92.7	—	Unverified
2	PaCMAP	Classification Accuracy	85.3	—	Unverified
3	hNNE	Classification Accuracy	77.4	—	Unverified
4	TopoAE	Classification Accuracy	74.6	—	Unverified