Data Augmentation

Data augmentation involves techniques used for increasing the amount of data, based on different modifications, to expand the amount of examples in the original dataset. Data augmentation not only helps to grow the dataset but it also increases the diversity of the dataset. When training machine learning models, data augmentation acts as a regularizer and helps to avoid overfitting.

Data augmentation techniques have been found useful in domains like NLP and computer vision. In computer vision, transformations like cropping, flipping, and rotation are used. In NLP, data augmentation techniques can include swapping, deletion, random insertion, among others.

Papers

Recently Added Most Hyped Most Active Needs Verification Most Verified

Showing 51–100 of 8378 papers

Title	Date	Tasks	Status	Hype
Seewo's Submission to MLC-SLM: Lessons learned from Speech Reasoning Language Models	Jun 16, 2025	Automatic Speech RecognitionAutomatic Speech Recognition (ASR)	—Unverified	0
ASMR: Augmenting Life Scenario using Large Generative Models for Robotic Action Reflection	Jun 16, 2025	Data AugmentationLarge Language Model	—Unverified	0
HPCTransCompile: An AI Compiler Generated Dataset for High-Performance CUDA Transpilation and LLM Preliminary Exploration	Jun 12, 2025	CPUData Augmentation	—Unverified	0
Self-Adapting Language Models	Jun 12, 2025	Data Augmentation	—Unverified	0
DreamActor-H1: High-Fidelity Human-Product Demonstration Video Generation via Motion-designed Diffusion Transformers	Jun 12, 2025	Data AugmentationMarketing	—Unverified	0
Alzheimer's Dementia Detection Using Perplexity from Paired Large Language Models	Jun 11, 2025	Data AugmentationDecision Making	—Unverified	0
CINeMA: Conditional Implicit Neural Multi-Modal Atlas for a Spatio-Temporal Representation of the Perinatal Brain	Jun 11, 2025	Data AugmentationImage Registration	CodeCode Available	0
ScoreMix: Improving Face Recognition via Score Composition in Diffusion Generators	Jun 11, 2025	Data AugmentationFace Recognition	—Unverified	0
An Explainable Deep Learning Framework for Brain Stroke and Tumor Progression via MRI Interpretation	Jun 10, 2025	Anomaly DetectionData Augmentation	—Unverified	0
SimClass: A Classroom Speech Dataset Generated via Game Engine Simulation For Automatic Speech Recognition Research	Jun 10, 2025	Automatic Speech RecognitionData Augmentation	—Unverified	0
scSSL-Bench: Benchmarking Self-Supervised Learning for Single-Cell Data	Jun 10, 2025	BenchmarkingData Augmentation	CodeCode Available	1
GFRIEND: Generative Few-shot Reward Inference through EfficieNt DPO	Jun 10, 2025	Data AugmentationModel Optimization	CodeCode Available	0
SSS: Semi-Supervised SAM-2 with Efficient Prompting for Medical Imaging Segmentation	Jun 10, 2025	Data AugmentationImage Segmentation	CodeCode Available	0
MOBODY: Model Based Off-Dynamics Offline Reinforcement Learning	Jun 10, 2025	Data Augmentationmodel	CodeCode Available	0
Data-Efficient Challenges in Visual Inductive Priors: A Retrospective	Jun 10, 2025	Data AugmentationDeep Learning	—Unverified	0
Data Augmentation For Small Object using Fast AutoAugment	Jun 10, 2025	Data AugmentationObject	—Unverified	0
Learning to Hear Broken Motors: Signature-Guided Data Augmentation for Induction-Motor Diagnostics	Jun 10, 2025	Data AugmentationDiagnostic	—Unverified	0
Spatiotemporal deep learning models for detection of rapid intensification in cyclones	Jun 10, 2025	Data AugmentationDeep Learning	—Unverified	0
Heavy Lasso: sparse penalized regression under heavy-tailed noise via data-augmented soft-thresholding	Jun 9, 2025	Data Augmentation	CodeCode Available	0
Scaling Human Activity Recognition: A Comparative Evaluation of Synthetic Data Generation and Augmentation Techniques	Jun 9, 2025	Activity RecognitionData Augmentation	—Unverified	0
DeepVideo-R1: Video Reinforcement Fine-Tuning via Difficulty-aware Regressive GRPO	Jun 9, 2025	Data AugmentationLarge Language Model	—Unverified	0
Dealing with the Evil Twins: Improving Random Augmentation by Addressing Catastrophic Forgetting of Diverse Augmentations	Jun 9, 2025	Data AugmentationDomain Generalization	—Unverified	0
Deep Inertial Pose: A deep learning approach for human pose estimation	Jun 7, 2025	Data AugmentationPose Estimation	—Unverified	0
Robust sensor fusion against on-vehicle sensor staleness	Jun 6, 2025	Autonomous VehiclesData Augmentation	—Unverified	0
Securing Traffic Sign Recognition Systems in Autonomous Vehicles	Jun 6, 2025	Autonomous VehiclesData Augmentation	—Unverified	0
Geometric and Physical Constraints Synergistically Enhance Neural PDE Surrogates	Jun 5, 2025	Data Augmentation	—Unverified	0
Model-based Neural Data Augmentation for sub-wavelength Radio Localization	Jun 5, 2025	Data Augmentation	—Unverified	0
PixCell: A generative foundation model for digital histopathology images	Jun 5, 2025	Cell SegmentationData Augmentation	—Unverified	0
IIITH-BUT system for IWSLT 2025 low-resource Bhojpuri to Hindi speech translation	Jun 5, 2025	Data AugmentationTranslation	—Unverified	0
Flattery, Fluff, and Fog: Diagnosing and Mitigating Idiosyncratic Biases in Preference Models	Jun 5, 2025	counterfactualData Augmentation	CodeCode Available	0
LLM-based phoneme-to-grapheme for phoneme-based speech recognition	Jun 5, 2025	Automatic Speech RecognitionAutomatic Speech Recognition (ASR)	—Unverified	0
hdl2v: A Code Translation Dataset for Enhanced LLM Verilog Generation	Jun 5, 2025	Code GenerationCode Translation	—Unverified	0
Person Re-Identification System at Semantic Level based on Pedestrian Attributes Ontology	Jun 4, 2025	AttributeData Augmentation	—Unverified	0
Fine-Tuning Video Transformers for Word-Level Bangla Sign Language: A Comparative Analysis for Classification Tasks	Jun 4, 2025	Data AugmentationModel Selection	—Unverified	0
A Novel Data Augmentation Approach for Automatic Speaking Assessment on Opinion Expressions	Jun 4, 2025	Data AugmentationDiversity	—Unverified	0
MASTER: Enhancing Large Language Model via Multi-Agent Simulated Teaching	Jun 3, 2025	Data AugmentationInstruction Following	—Unverified	0
Explicitly Modeling Subcortical Vision with a Neuro-Inspired Front-End Improves CNN Robustness	Jun 3, 2025	Data AugmentationObject Recognition	—Unverified	0
Simple, Good, Fast: Self-Supervised World Models Free of Baggage	Jun 3, 2025	Data AugmentationRepresentation Learning	CodeCode Available	1
MISLEADER: Defending against Model Extraction with Ensembles of Distilled Models	Jun 3, 2025	Bilevel OptimizationData Augmentation	CodeCode Available	0
How Explanations Leak the Decision Logic: Stealing Graph Neural Networks via Explanation Alignment	Jun 3, 2025	Data AugmentationDrug Discovery	CodeCode Available	0
OmniV2V: Versatile Video Generation and Editing via Dynamic Content Manipulation	Jun 2, 2025	Data AugmentationHuman Animation	CodeCode Available	5
Dual encoding feature filtering generalized attention UNET for retinal vessel segmentation	Jun 2, 2025	Data AugmentationRetinal Vessel Segmentation	CodeCode Available	0
3D Skeleton-Based Action Recognition: A Review	Jun 1, 2025	Action RecognitionData Augmentation	—Unverified	0
Lightweight Convolutional Neural Networks for Retinal Disease Classification	May 30, 2025	ClassificationData Augmentation	—Unverified	0
Shuffle PatchMix Augmentation with Confidence-Margin Weighted Pseudo-Labels for Enhanced Source-Free Domain Adaptation	May 30, 2025	Data AugmentationDomain Adaptation	CodeCode Available	0
Leveraging Intermediate Features of Vision Transformer for Face Anti-Spoofing	May 30, 2025	Data AugmentationFace Anti-Spoofing	—Unverified	0
Reinforcing Video Reasoning with Focused Thinking	May 30, 2025	Data AugmentationVisual Reasoning	CodeCode Available	1
Revisiting Cross-Modal Knowledge Distillation: A Disentanglement Approach for RGBD Semantic Segmentation	May 30, 2025	Autonomous DrivingContrastive Learning	CodeCode Available	0
SPPSFormer: High-quality Superpoint-based Transformer for Roof Plane Instance Segmentation from Point Clouds	May 30, 2025	Data AugmentationInstance Segmentation	—Unverified	0
Improving Multilingual Speech Models on ML-SUPERB 2.0: Fine-tuning with Data Augmentation and LID-Aware CTC	May 30, 2025	Automatic Speech RecognitionAutomatic Speech Recognition (ASR)	—Unverified	0

Show:10 25 50

← PrevPage 2 of 168Next →

All datasets ImageNet CIFAR-10 GA1457

Benchmark Results

#	Model	Metric	Claimed	Verified	Status
1	DeiT-B (+MixPro)	Accuracy (%)	82.9	—	Unverified
2	ResNet-200 (DeepAA)	Accuracy (%)	81.32	—	Unverified
3	DeiT-S (+MixPro)	Accuracy (%)	81.3	—	Unverified
4	ResNet-200 (Fast AA)	Accuracy (%)	80.6	—	Unverified
5	ResNet-200 (UA)	Accuracy (%)	80.4	—	Unverified
6	ResNet-200 (AA)	Accuracy (%)	80	—	Unverified
7	ResNet-50 (DeepAA)	Accuracy (%)	78.3	—	Unverified
8	ResNet-50 (TA wide)	Accuracy (%)	78.07	—	Unverified
9	ResNet-50 (LoRot-E)	Accuracy (%)	77.72	—	Unverified
10	ResNet-50 (LoRot-I)	Accuracy (%)	77.71	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	WideResNet-40-2 (Faster AA)	Percentage error	3.7	—	Unverified
2	Shake-Shake (26 2×32d) (Faster AA)	Percentage error	2.7	—	Unverified
3	WideResNet-28-10 (Faster AA)	Percentage error	2.6	—	Unverified
4	Shake-Shake (26 2×112d) (Faster AA)	Percentage error	2	—	Unverified
5	Shake-Shake (26 2×96d) (Faster AA)	Percentage error	2	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	DiffAug	Classification Accuracy	92.7	—	Unverified
2	PaCMAP	Classification Accuracy	85.3	—	Unverified
3	hNNE	Classification Accuracy	77.4	—	Unverified
4	TopoAE	Classification Accuracy	74.6	—	Unverified