Data Augmentation

Data augmentation involves techniques used for increasing the amount of data, based on different modifications, to expand the amount of examples in the original dataset. Data augmentation not only helps to grow the dataset but it also increases the diversity of the dataset. When training machine learning models, data augmentation acts as a regularizer and helps to avoid overfitting.

Data augmentation techniques have been found useful in domains like NLP and computer vision. In computer vision, transformations like cropping, flipping, and rotation are used. In NLP, data augmentation techniques can include swapping, deletion, random insertion, among others.

Papers

Recently Added Most Hyped Most Active Needs Verification Most Verified

Showing 251–300 of 8378 papers

Title	Date	Tasks	Status	Hype
Enhancing DR Classification with Swin Transformer and Shifted Window Attention	Apr 20, 2025	Data AugmentationImage Cropping	—Unverified	0
Data Augmentation Using Neural Acoustic Fields With Retrieval-Augmented Pre-training	Apr 19, 2025	Data AugmentationRetrieval	—Unverified	0
Beyond One-Hot Labels: Semantic Mixing for Model Calibration	Apr 18, 2025	Data Augmentation	CodeCode Available	0
LIFT+: Lightweight Fine-Tuning for Long-Tail Learning	Apr 17, 2025	Data AugmentationLong-tail Learning	CodeCode Available	0
MathPhys-Guided Coarse-to-Fine Anomaly Synthesis with SQE-Driven Bi-Level Optimization for Anomaly Detection	Apr 17, 2025	Anomaly DetectionData Augmentation	—Unverified	0
ACoRN: Noise-Robust Abstractive Compression in Retrieval-Augmented Language Models	Apr 17, 2025	Data AugmentationRAG	—Unverified	0
NoisyRollout: Reinforcing Visual Reasoning with Data Augmentation	Apr 17, 2025	Data AugmentationDiversity	CodeCode Available	2
Crossing the Human-Robot Embodiment Gap with Sim-to-Real RL using One Human Demonstration	Apr 17, 2025	Data AugmentationHuman-Object Interaction Detection	—Unverified	0
Effective Dual-Region Augmentation for Reduced Reliance on Large Amounts of Labeled Data	Apr 17, 2025	Data AugmentationDiversity	CodeCode Available	0
Benchmarking Audio Deepfake Detection Robustness in Real-world Communication Scenarios	Apr 16, 2025	Audio Deepfake DetectionBenchmarking	—Unverified	0
CDUPatch: Color-Driven Universal Adversarial Patch Attack for Dual-Modal Visible-Infrared Detectors	Apr 15, 2025	Data Augmentationobject-detection	—Unverified	0
Aligning Generative Denoising with Discriminative Objectives Unleashes Diffusion for Visual Perception	Apr 15, 2025	Data AugmentationDenoising	CodeCode Available	1
Dual-Path Enhancements in Event-Based Eye Tracking: Augmented Robustness and Adaptive Temporal Modeling	Apr 14, 2025	Data Augmentation	—Unverified	0
Data Augmentation Through Random Style Replacement	Apr 14, 2025	Data AugmentationStyle Transfer	—Unverified	0
MASSeg : 2nd Technical Report for 4th PVUW MOSE Track	Apr 14, 2025	Data AugmentationObject	CodeCode Available	0
Unveiling Contrastive Learning's Capability of Neighborhood Aggregation for Collaborative Filtering	Apr 14, 2025	Collaborative FilteringContrastive Learning	CodeCode Available	1
Decoupled Diffusion Sparks Adaptive Scene Generation	Apr 14, 2025	Autonomous DrivingData Augmentation	—Unverified	0
Towards contrast- and pathology-agnostic clinical fetal brain MRI segmentation using SynthSeg	Apr 14, 2025	Data AugmentationMRI segmentation	—Unverified	0
VAE-based Feature Disentanglement for Data Augmentation and Compression in Generalized GNSS Interference Classification	Apr 14, 2025	Data AugmentationData Compression	—Unverified	0
Improving In-Context Learning with Reasoning Distillation	Apr 14, 2025	ARCData Augmentation	CodeCode Available	0
Mitigating Long-tail Distribution in Oracle Bone Inscriptions: Dataset, Model, and Benchmark	Apr 13, 2025	Data AugmentationDenoising	—Unverified	0
Span-level Emotion-Cause-Category Triplet Extraction with Instruction Tuning LLMs and Data Augmentation	Apr 13, 2025	Data AugmentationEmotion-Cause Pair Extraction	CodeCode Available	0
Ges3ViG: Incorporating Pointing Gestures into Language-Based 3D Visual Grounding for Embodied Reference Understanding	Apr 13, 2025	3D visual groundingData Augmentation	CodeCode Available	0
seg2med: a bridge from artificial anatomy to multimodal medical images	Apr 12, 2025	AnatomyData Augmentation	—Unverified	0
MedRep: Medical Concept Representation for General Electronic Health Record Foundation Models	Apr 11, 2025	Data AugmentationLanguage Modeling	CodeCode Available	0
Diffusion Models for Robotic Manipulation: A Survey	Apr 11, 2025	Data AugmentationImage Augmentation	—Unverified	0
Latent Diffusion Autoencoders: Toward Efficient and Meaningful Unsupervised Representation Learning in Medical Imaging	Apr 11, 2025	AttributeComputational Efficiency	CodeCode Available	1
Exploring Human-Like Thinking in Search Simulations with Large Language Models	Apr 10, 2025	Data AugmentationInformation Retrieval	CodeCode Available	0
CCMNet: Leveraging Calibrated Color Correction Matrices for Cross-Camera Color Constancy	Apr 10, 2025	Color ConstancyData Augmentation	CodeCode Available	1
The Efficacy of Semantics-Preserving Transformations in Self-Supervised Learning for Medical Ultrasound	Apr 10, 2025	ClassificationData Augmentation	—Unverified	0
Heart Failure Prediction using Modal Decomposition and Masked Autoencoders for Scarce Echocardiography Databases	Apr 10, 2025	Data AugmentationSelf-Supervised Learning	CodeCode Available	1
Deep Learning-Based Wideband Spectrum Sensing with Dual-Representation Inputs and Subband Shuffling Augmentation	Apr 10, 2025	Data Augmentation	—Unverified	0
MonoPlace3D: Learning 3D-Aware Object Placement for 3D Monocular Detection	Apr 9, 2025	Data AugmentationDiversity	—Unverified	0
A Comparison of Deep Learning Methods for Cell Detection in Digital Cytology	Apr 9, 2025	Cell DetectionComputational Efficiency	CodeCode Available	0
WoundAmbit: Bridging State-of-the-Art Semantic Segmentation and Real-World Wound Care	Apr 8, 2025	Computational EfficiencyCPU	—Unverified	0
FactGuard: Leveraging Multi-Agent Systems to Generate Answerable and Unanswerable Questions for Enhanced Long-Context LLM Extraction	Apr 8, 2025	8kData Augmentation	CodeCode Available	0
Enhancing NER Performance in Low-Resource Pakistani Languages using Cross-Lingual Data Augmentation	Apr 7, 2025	Data AugmentationFew-Shot Learning	—Unverified	0
Data Augmentation as Free Lunch: Exploring the Test-Time Augmentation for Sequential Recommendation	Apr 7, 2025	Data AugmentationSequential Recommendation	CodeCode Available	1
S^4M: Boosting Semi-Supervised Instance Segmentation with SAM	Apr 7, 2025	Data AugmentationInstance Segmentation	—Unverified	0
Dynamic hysteresis model of grain-oriented ferromagnetic material using neural operators	Apr 7, 2025	Data Augmentation	—Unverified	0
Attentional Graph Meta-Learning for Indoor Localization Using Extremely Sparse Fingerprints	Apr 7, 2025	Data AugmentationGraph Neural Network	—Unverified	0
AdvKT: An Adversarial Multi-Step Training Framework for Knowledge Tracing	Apr 7, 2025	Data AugmentationKnowledge Tracing	—Unverified	0
SDAFE: A Dual-filter Stable Diffusion Data Augmentation Method for Facial Expression Recognition	Apr 6, 2025	Data AugmentationFacial Expression Recognition	—Unverified	0
Enhance Then Search: An Augmentation-Search Strategy with Foundation Models for Cross-Domain Few-Shot Object Detection	Apr 6, 2025	Cross-Domain Few-ShotCross-Domain Few-Shot Object Detection	CodeCode Available	2
Reciprocity-Aware Convolutional Neural Networks for Map-Based Path Loss Prediction	Apr 4, 2025	Data Augmentation	—Unverified	0
QIRL: Boosting Visual Question Answering via Optimized Question-Image Relation Learning	Apr 4, 2025	Data AugmentationImage Generation	—Unverified	0
Finding the Reflection Point: Unpadding Images to Remove Data Augmentation Artifacts in Large Open Source Image Datasets for Machine Learning	Apr 4, 2025	Data AugmentationHuman Detection	—Unverified	0
Mind the Prompt: Prompting Strategies in Audio Generations for Improving Sound Classification	Apr 4, 2025	ClassificationData Augmentation	—Unverified	0
Data Augmentation of Time-Series Data in Human Movement Biomechanics: A Scoping Review	Apr 4, 2025	Data AugmentationTime Series	—Unverified	0
LinTO Audio and Textual Datasets to Train and Evaluate Automatic Speech Recognition in Tunisian Arabic Dialect	Apr 3, 2025	Automatic Speech RecognitionAutomatic Speech Recognition (ASR)	—Unverified	0

Show:10 25 50

← PrevPage 6 of 168Next →

All datasets ImageNet CIFAR-10 GA1457

Benchmark Results

#	Model	Metric	Claimed	Verified	Status
1	DeiT-B (+MixPro)	Accuracy (%)	82.9	—	Unverified
2	ResNet-200 (DeepAA)	Accuracy (%)	81.32	—	Unverified
3	DeiT-S (+MixPro)	Accuracy (%)	81.3	—	Unverified
4	ResNet-200 (Fast AA)	Accuracy (%)	80.6	—	Unverified
5	ResNet-200 (UA)	Accuracy (%)	80.4	—	Unverified
6	ResNet-200 (AA)	Accuracy (%)	80	—	Unverified
7	ResNet-50 (DeepAA)	Accuracy (%)	78.3	—	Unverified
8	ResNet-50 (TA wide)	Accuracy (%)	78.07	—	Unverified
9	ResNet-50 (LoRot-E)	Accuracy (%)	77.72	—	Unverified
10	ResNet-50 (LoRot-I)	Accuracy (%)	77.71	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	WideResNet-40-2 (Faster AA)	Percentage error	3.7	—	Unverified
2	Shake-Shake (26 2×32d) (Faster AA)	Percentage error	2.7	—	Unverified
3	WideResNet-28-10 (Faster AA)	Percentage error	2.6	—	Unverified
4	Shake-Shake (26 2×112d) (Faster AA)	Percentage error	2	—	Unverified
5	Shake-Shake (26 2×96d) (Faster AA)	Percentage error	2	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	DiffAug	Classification Accuracy	92.7	—	Unverified
2	PaCMAP	Classification Accuracy	85.3	—	Unverified
3	hNNE	Classification Accuracy	77.4	—	Unverified
4	TopoAE	Classification Accuracy	74.6	—	Unverified