Data Augmentation

Data augmentation involves techniques used for increasing the amount of data, based on different modifications, to expand the amount of examples in the original dataset. Data augmentation not only helps to grow the dataset but it also increases the diversity of the dataset. When training machine learning models, data augmentation acts as a regularizer and helps to avoid overfitting.

Data augmentation techniques have been found useful in domains like NLP and computer vision. In computer vision, transformations like cropping, flipping, and rotation are used. In NLP, data augmentation techniques can include swapping, deletion, random insertion, among others.

Papers

Recently Added Most Hyped Most Active Needs Verification Most Verified

Showing 401–425 of 8378 papers

Title	Date	Tasks	Status	Hype
SeiT++: Masked Token Modeling Improves Storage-efficient Training	Dec 15, 2023	ClassificationData Augmentation	CodeCode Available	1
Fusion of Audio and Visual Embeddings for Sound Event Localization and Detection	Dec 14, 2023	Data AugmentationEvent Detection	CodeCode Available	1
Semi-Supervised Class-Agnostic Motion Prediction with Pseudo Label Regeneration and BEVMix	Dec 13, 2023	Autonomous DrivingData Augmentation	CodeCode Available	1
Toward Robustness in Multi-label Classification: A Data Augmentation Strategy against Imbalance and Noise	Dec 12, 2023	Data AugmentationDiversity	CodeCode Available	1
Progressive Multi-Modality Learning for Inverse Protein Folding	Dec 11, 2023	cross-modal alignmentData Augmentation	CodeCode Available	1
SimPSI: A Simple Strategy to Preserve Spectral Information in Time Series Data Augmentation	Dec 10, 2023	Data AugmentationTime Series	CodeCode Available	1
D3A-TS: Denoising-Driven Data Augmentation in Time Series	Dec 9, 2023	Data AugmentationDenoising	CodeCode Available	1
3D Copy-Paste: Physically Plausible Object Insertion for Monocular 3D Detection	Dec 8, 2023	3D Object DetectionData Augmentation	CodeCode Available	1
Enhancing Recipe Retrieval with Foundation Models: A Data Augmentation Perspective	Dec 8, 2023	Cross-Modal RetrievalData Augmentation	CodeCode Available	1
Series2Vec: Similarity-based Self-supervised Representation Learning for Time Series Classification	Dec 7, 2023	Data AugmentationRepresentation Learning	CodeCode Available	1
Augmentation-Free Dense Contrastive Knowledge Distillation for Efficient Semantic Segmentation	Dec 7, 2023	Contrastive LearningData Augmentation	CodeCode Available	1
GeNIe: Generative Hard Negative Images Through Diffusion	Dec 5, 2023	Data AugmentationImage Generation	CodeCode Available	1
Steerers: A framework for rotation equivariant keypoint descriptors	Dec 4, 2023	3D ReconstructionData Augmentation	CodeCode Available	1
Toward Improving Robustness of Object Detectors Against Domain Shift	Dec 2, 2023	Data AugmentationDiversity	CodeCode Available	1
Dataset Distillation via Curriculum Data Synthesis in Large Data Era	Nov 30, 2023	Data AugmentationDataset Distillation	CodeCode Available	1
A Simple Recipe for Language-guided Domain Generalized Segmentation	Nov 29, 2023	Data AugmentationSemantic Segmentation	CodeCode Available	1
Alternate Diverse Teaching for Semi-supervised Medical Image Segmentation	Nov 29, 2023	Data AugmentationImage Segmentation	CodeCode Available	1
CLAP: Isolating Content from Style through Contrastive Learning with Augmented Prompts	Nov 28, 2023	Contrastive LearningData Augmentation	CodeCode Available	1
OpusCleaner and OpusTrainer, open source toolkits for training Machine Translation and Large language models	Nov 24, 2023	Data AugmentationMachine Translation	CodeCode Available	1
Unified Domain Adaptive Semantic Segmentation	Nov 22, 2023	Data AugmentationOptical Flow Estimation	CodeCode Available	1
Feature Extraction for Generative Medical Imaging Evaluation: New Evidence Against an Evolving Trend	Nov 22, 2023	Data AugmentationMedical Image Generation	CodeCode Available	1
Immunohistochemistry guided segmentation of benign epithelial cells, in situ lesions, and invasive epithelial cells in breast cancer slides	Nov 22, 2023	Data AugmentationDiagnostic	CodeCode Available	1
Generating Progressive Images from Pathological Transitions via Diffusion Model	Nov 21, 2023	Data AugmentationDiversity	CodeCode Available	1
Adapting pretrained speech model for Mandarin lyrics transcription and alignment	Nov 21, 2023	Automatic Lyrics TranscriptionData Augmentation	CodeCode Available	1
NNG-Mix: Improving Semi-supervised Anomaly Detection with Pseudo-anomaly Generation	Nov 20, 2023	Anomaly DetectionData Augmentation	CodeCode Available	1

Show:10 25 50

← PrevPage 17 of 336Next →

All datasets ImageNet CIFAR-10 GA1457

Benchmark Results

#	Model	Metric	Claimed	Verified	Status
1	DeiT-B (+MixPro)	Accuracy (%)	82.9	—	Unverified
2	ResNet-200 (DeepAA)	Accuracy (%)	81.32	—	Unverified
3	DeiT-S (+MixPro)	Accuracy (%)	81.3	—	Unverified
4	ResNet-200 (Fast AA)	Accuracy (%)	80.6	—	Unverified
5	ResNet-200 (UA)	Accuracy (%)	80.4	—	Unverified
6	ResNet-200 (AA)	Accuracy (%)	80	—	Unverified
7	ResNet-50 (DeepAA)	Accuracy (%)	78.3	—	Unverified
8	ResNet-50 (TA wide)	Accuracy (%)	78.07	—	Unverified
9	ResNet-50 (LoRot-E)	Accuracy (%)	77.72	—	Unverified
10	ResNet-50 (LoRot-I)	Accuracy (%)	77.71	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	WideResNet-40-2 (Faster AA)	Percentage error	3.7	—	Unverified
2	Shake-Shake (26 2×32d) (Faster AA)	Percentage error	2.7	—	Unverified
3	WideResNet-28-10 (Faster AA)	Percentage error	2.6	—	Unverified
4	Shake-Shake (26 2×112d) (Faster AA)	Percentage error	2	—	Unverified
5	Shake-Shake (26 2×96d) (Faster AA)	Percentage error	2	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	DiffAug	Classification Accuracy	92.7	—	Unverified
2	PaCMAP	Classification Accuracy	85.3	—	Unverified
3	hNNE	Classification Accuracy	77.4	—	Unverified
4	TopoAE	Classification Accuracy	74.6	—	Unverified