Data Augmentation

Data augmentation involves techniques used for increasing the amount of data, based on different modifications, to expand the amount of examples in the original dataset. Data augmentation not only helps to grow the dataset but it also increases the diversity of the dataset. When training machine learning models, data augmentation acts as a regularizer and helps to avoid overfitting.

Data augmentation techniques have been found useful in domains like NLP and computer vision. In computer vision, transformations like cropping, flipping, and rotation are used. In NLP, data augmentation techniques can include swapping, deletion, random insertion, among others.

Papers

Recently Added Most Hyped Most Active Needs Verification Most Verified

Showing 51–100 of 8378 papers

Title	Date	Tasks	Status	Hype
BWFormer: Building Wireframe Reconstruction from Airborne LiDAR Point Cloud with Transformer	Jan 1, 2025	Data Augmentation	CodeCode Available	2
ProbPose: A Probabilistic Approach to 2D Human Pose Estimation	Dec 3, 2024	2D Human Pose EstimationData Augmentation	CodeCode Available	2
Many-MobileNet: Multi-Model Augmentation for Robust Retinal Disease Classification	Dec 3, 2024	Computational EfficiencyData Augmentation	CodeCode Available	2
AeroGen: Enhancing Remote Sensing Object Detection with Diffusion-Driven Data Generation	Nov 23, 2024	Data AugmentationDiversity	CodeCode Available	2
Improved Multi-Task Brain Tumour Segmentation with Synthetic Data Augmentation	Nov 7, 2024	Data AugmentationSynthetic Data Generation	CodeCode Available	2
LLMEmb: Large Language Model Can Be a Good Embedding Generator for Sequential Recommendation	Sep 30, 2024	AttributeCollaborative Filtering	CodeCode Available	2
Self-Supervised Any-Point Tracking by Contrastive Random Walks	Sep 24, 2024	Contrastive LearningData Augmentation	CodeCode Available	2
HSIGene: A Foundation Model For Hyperspectral Image Generation	Sep 19, 2024	Data AugmentationDenoising	CodeCode Available	2
Synthetic continued pretraining	Sep 11, 2024	Data AugmentationLanguage Modelling	CodeCode Available	2
A Survey on Diffusion Models for Recommender Systems	Sep 8, 2024	Data AugmentationRecommendation Systems	CodeCode Available	2
BooW-VTON: Boosting In-the-Wild Virtual Try-On via Mask-Free Pseudo Data Training	Aug 12, 2024	Data AugmentationVirtual Try-on	CodeCode Available	2
RL-ADN: A High-Performance Deep Reinforcement Learning Environment for Optimal Energy Storage Systems Dispatch in Active Distribution Networks	Aug 7, 2024	Computational EfficiencyData Augmentation	CodeCode Available	2
ARoFace: Alignment Robustness to Improve Low-Quality Face Recognition	Jul 20, 2024	Data AugmentationFace Alignment	CodeCode Available	2
Mono-ViFI: A Unified Learning Framework for Self-supervised Single- and Multi-frame Monocular Depth Estimation	Jul 19, 2024	Data AugmentationDepth Estimation	CodeCode Available	2
Enhancing the Utility of Privacy-Preserving Cancer Classification using Synthetic Data	Jul 17, 2024	Breast Cancer DetectionCancer Classification	CodeCode Available	2
LLaMAX: Scaling Linguistic Horizons of LLM by Enhancing Translation Capabilities Beyond 100 Languages	Jul 8, 2024	Data AugmentationTranslation	CodeCode Available	2
Rethinking Data Augmentation for Robust LiDAR Semantic Segmentation in Adverse Weather	Jul 2, 2024	Data AugmentationLIDAR Semantic Segmentation	CodeCode Available	2
Robust and Reliable Early-Stage Website Fingerprinting Attacks via Spatial-Temporal Distribution Analysis	Jul 1, 2024	Contrastive LearningData Augmentation	CodeCode Available	2
UniGen: A Unified Framework for Textual Dataset Generation Using Large Language Models	Jun 27, 2024	AttributeBenchmarking	CodeCode Available	2
Learn Beyond The Answer: Training Language Models with Reflection for Mathematical Reasoning	Jun 17, 2024	Data AugmentationMathematical Reasoning	CodeCode Available	2
Navigating the Shadows: Unveiling Effective Disturbances for Modern AI Content Detectors	Jun 13, 2024	Data AugmentationText Detection	CodeCode Available	2
Saturn: Sample-efficient Generative Molecular Design using Memory Manipulation	May 27, 2024	Data AugmentationDrug Discovery	CodeCode Available	2
Out of Many, One: Designing and Scaffolding Proteins at the Scale of the Structural Universe with Genie 2	May 24, 2024	Data AugmentationDiversity	CodeCode Available	2
DiverGen: Improving Instance Segmentation by Learning Wider Data Distribution with More Diverse Generative Data	May 16, 2024	Data AugmentationDiversity	CodeCode Available	2
PHUDGE: Phi-3 as Scalable Judge	May 12, 2024	Data Augmentation	CodeCode Available	2
Joint Physical-Digital Facial Attack Detection Via Simulating Spoofing Clues	Apr 12, 2024	Data AugmentationFace Anti-Spoofing	CodeCode Available	2
MindBridge: A Cross-Subject Brain Decoding Framework	Apr 11, 2024	Brain DecodingData Augmentation	CodeCode Available	2
Identity Decoupling for Multi-Subject Personalization of Text-to-Image Models	Apr 5, 2024	Data Augmentation	CodeCode Available	2
Mind the Domain Gap: a Systematic Analysis on Bioacoustic Sound Event Detection	Mar 27, 2024	Data AugmentationDomain Adaptation	CodeCode Available	2
Calib3D: Calibrating Model Preferences for Reliable 3D Scene Understanding	Mar 25, 2024	Data AugmentationScene Understanding	CodeCode Available	2
LLM2LLM: Boosting LLMs with Novel Iterative Data Enhancement	Mar 22, 2024	Data AugmentationGSM8K	CodeCode Available	2
Addressing Concept Shift in Online Time Series Forecasting: Detect-then-Adapt	Mar 22, 2024	Data AugmentationTime Series	CodeCode Available	2
A Versatile Framework for Multi-scene Person Re-identification	Mar 17, 2024	Data AugmentationPerson Re-Identification	CodeCode Available	2
Data is all you need: Finetuning LLMs for Chip Design via an Automated design-data augmentation framework	Mar 17, 2024	AllData Augmentation	CodeCode Available	2
Revisiting Adversarial Training under Long-Tailed Distributions	Mar 15, 2024	Adversarial DefenseData Augmentation	CodeCode Available	2
EarthLoc: Astronaut Photography Localization by Indexing Earth from Space	Mar 11, 2024	Data AugmentationDisaster Response	CodeCode Available	2
Delving into the Trajectory Long-tail Distribution for Muti-object Tracking	Mar 7, 2024	Data AugmentationMulti-Object Tracking	CodeCode Available	2
Task Attribute Distance for Few-Shot Learning: Theoretical Analysis and Applications	Mar 6, 2024	AttributeData Augmentation	CodeCode Available	2
MolNexTR: A Generalized Deep Learning Model for Molecular Image Recognition	Mar 6, 2024	Data AugmentationDeep Learning	CodeCode Available	2
CodeS: Towards Building Open-source Language Models for Text-to-SQL	Feb 26, 2024	Data AugmentationDiagnostic	CodeCode Available	2
Morphological Symmetries in Robotics	Feb 23, 2024	Data Augmentation	CodeCode Available	2
Neighborhood-Enhanced Supervised Contrastive Learning for Collaborative Filtering	Feb 18, 2024	Collaborative FilteringContrastive Learning	CodeCode Available	2
One Train for Two Tasks: An Encrypted Traffic Classification Framework Using Supervised Contrastive Learning	Feb 12, 2024	ClassificationContrastive Learning	CodeCode Available	2
Shadowcast: Stealthy Data Poisoning Attacks Against Vision-Language Models	Feb 5, 2024	Data AugmentationData Poisoning	CodeCode Available	2
A Survey on Data Augmentation in Large Model Era	Jan 27, 2024	Audio Signal ProcessingData Augmentation	CodeCode Available	2
Spatial Scaper: A Library to Simulate and Augment Soundscapes for Sound Event Localization and Detection in Realistic Rooms	Jan 19, 2024	Data AugmentationDiversity	CodeCode Available	2
Exploring Color Invariance through Image-Level Ensemble Learning	Jan 19, 2024	Data AugmentationEnsemble Learning	CodeCode Available	2
Authorship Obfuscation in Multilingual Machine-Generated Text Detection	Jan 15, 2024	Adversarial RobustnessBenchmarking	CodeCode Available	2
Large Language Models Can Learn Temporal Reasoning	Jan 12, 2024	Data AugmentationDiversity	CodeCode Available	2
Multi-Modal Representation Learning for Molecular Property Prediction: Sequence, Graph, Geometry	Jan 7, 2024	Data AugmentationDrug Discovery	CodeCode Available	2

Show:10 25 50

← PrevPage 2 of 168Next →

All datasets ImageNet CIFAR-10 GA1457

Benchmark Results

#	Model	Metric	Claimed	Verified	Status
1	DeiT-B (+MixPro)	Accuracy (%)	82.9	—	Unverified
2	ResNet-200 (DeepAA)	Accuracy (%)	81.32	—	Unverified
3	DeiT-S (+MixPro)	Accuracy (%)	81.3	—	Unverified
4	ResNet-200 (Fast AA)	Accuracy (%)	80.6	—	Unverified
5	ResNet-200 (UA)	Accuracy (%)	80.4	—	Unverified
6	ResNet-200 (AA)	Accuracy (%)	80	—	Unverified
7	ResNet-50 (DeepAA)	Accuracy (%)	78.3	—	Unverified
8	ResNet-50 (TA wide)	Accuracy (%)	78.07	—	Unverified
9	ResNet-50 (LoRot-E)	Accuracy (%)	77.72	—	Unverified
10	ResNet-50 (LoRot-I)	Accuracy (%)	77.71	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	WideResNet-40-2 (Faster AA)	Percentage error	3.7	—	Unverified
2	Shake-Shake (26 2×32d) (Faster AA)	Percentage error	2.7	—	Unverified
3	WideResNet-28-10 (Faster AA)	Percentage error	2.6	—	Unverified
4	Shake-Shake (26 2×112d) (Faster AA)	Percentage error	2	—	Unverified
5	Shake-Shake (26 2×96d) (Faster AA)	Percentage error	2	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	DiffAug	Classification Accuracy	92.7	—	Unverified
2	PaCMAP	Classification Accuracy	85.3	—	Unverified
3	hNNE	Classification Accuracy	77.4	—	Unverified
4	TopoAE	Classification Accuracy	74.6	—	Unverified