Data Augmentation

Data augmentation involves techniques used for increasing the amount of data, based on different modifications, to expand the amount of examples in the original dataset. Data augmentation not only helps to grow the dataset but it also increases the diversity of the dataset. When training machine learning models, data augmentation acts as a regularizer and helps to avoid overfitting.

Data augmentation techniques have been found useful in domains like NLP and computer vision. In computer vision, transformations like cropping, flipping, and rotation are used. In NLP, data augmentation techniques can include swapping, deletion, random insertion, among others.

Papers

Recently Added Most Hyped Most Active Needs Verification Most Verified

Showing 7851–7900 of 8378 papers

Title	Date	Tasks	Status
NeSy is alive and well: A LLM-driven symbolic approach for better code comment data generation and classification	Feb 25, 2024	ClassificationData Augmentation	CodeCode Available
NetAurHPD: Network Auralization Hyperlink Prediction Model to Identify Metabolic Pathways from Metabolomics Data	Oct 29, 2024	Data Augmentation	CodeCode Available
Dynamic Test-Time Augmentation via Differentiable Functions	Dec 9, 2022	ClassificationData Augmentation	CodeCode Available
T-GAE: Transferable Graph Autoencoder for Network Alignment	Oct 5, 2023	Data AugmentationTransfer Learning	CodeCode Available
Scalable Implicit Graphon Learning	Oct 22, 2024	Data Augmentation	CodeCode Available
Network-informed Prompt Engineering against Organized Astroturf Campaigns under Extreme Class Imbalance	Jan 21, 2025	Data AugmentationLanguage Modeling	CodeCode Available
Networks with pixels embedding: a method to improve noise resistance in images classification	May 24, 2020	ClassificationData Augmentation	CodeCode Available
UW-FinSent at SemEval-2017 Task 5: Sentiment Analysis on Financial News Headlines using Training Dataset Augmentation	Aug 1, 2017	Data Augmentationregression	CodeCode Available
Transformers on Multilingual Clause-Level Morphology	Nov 3, 2022	Data AugmentationLanguage Modelling	CodeCode Available
Syntax-based data augmentation for Hungarian-English machine translation	Jan 18, 2022	Data AugmentationMachine Translation	CodeCode Available
Syntax-driven Data Augmentation for Named Entity Recognition	Aug 15, 2022	Data AugmentationLanguage Modeling	CodeCode Available
Exploring the Robustness of In-Context Learning with Noisy Labels	Apr 28, 2024	Data AugmentationIn-Context Learning	CodeCode Available
Zero-shot Code-Mixed Offensive Span Identification through Rationale Extraction	May 12, 2022	Data AugmentationSentence	CodeCode Available
Neural Data Augmentation via Example Extrapolation	Feb 2, 2021	Data AugmentationDiversity	CodeCode Available
VaeDiff-DocRE: End-to-end Data Augmentation Framework for Document-level Relation Extraction	Dec 18, 2024	Data Augmentation	CodeCode Available
Simple Data Augmentation Techniques for Chinese Disease Normalization	Jun 2, 2023	Data Augmentation	CodeCode Available
Counterexample-Guided Data Augmentation	May 17, 2018	Autonomous DrivingData Augmentation	CodeCode Available
Neural Language Model Based Training Data Augmentation for Weakly Supervised Early Rumor Detection	Jul 16, 2019	Data AugmentationLanguage Modeling	CodeCode Available
Understanding Compositional Data Augmentation in Typologically Diverse Morphological Inflection	May 23, 2023	AttributeData Augmentation	CodeCode Available
Exploring Scene Affinity for Semi-Supervised LiDAR Semantic Segmentation	Aug 21, 2024	3D Semantic SegmentationData Augmentation	CodeCode Available
CoUDA: Coherence Evaluation via Unified Data Augmentation	Mar 31, 2024	Coherence EvaluationData Augmentation	CodeCode Available
Augment to Interpret: Unsupervised and Inherently Interpretable Graph Embeddings	Sep 28, 2023	Data AugmentationGraph Representation Learning	CodeCode Available
Neural Network Architecture for Database Augmentation Using Shared Features	Feb 2, 2023	Data Augmentation	CodeCode Available
Cost-efficient Crowdsourcing for Span-based Sequence Labeling: Worker Selection and Data Augmentation	May 11, 2023	Data AugmentationNER	CodeCode Available
Augment the Pairs: Semantics-Preserving Image-Caption Pair Augmentation for Grounding-Based Vision and Language Models	Nov 5, 2023	Data AugmentationPhrase Grounding	CodeCode Available
Neural Networks Regularization Through Representation Learning	Jul 13, 2018	Data AugmentationRepresentation Learning	CodeCode Available
An Efficient LSTM Neural Network-Based Framework for Vessel Location Forecasting	Mar 16, 2023	Data Augmentation	CodeCode Available
CORE: A Retrieve-then-Edit Framework for Counterfactual Data Generation	Oct 10, 2022	counterfactualData Augmentation	CodeCode Available
Neural Operator-Based Proxy for Reservoir Simulations Considering Varying Well Settings, Locations, and Permeability Fields	Jul 13, 2024	Data Augmentation	CodeCode Available
Scaling Laws For Dense Retrieval	Mar 27, 2024	Data AugmentationRetrieval	CodeCode Available
Identifying Expert Behavior in Offline Training Datasets Improves Behavioral Cloning of Robotic Manipulation Policies	Jan 30, 2023	Data AugmentationFeature Engineering	CodeCode Available
CoPrUS: Consistency Preserving Utterance Synthesis towards more realistic benchmark dialogues	Dec 10, 2024	Data AugmentationLanguage Modeling	CodeCode Available
Scaling up Discourse Quality Annotation for Political Science	Jun 1, 2022	Argument MiningData Augmentation	CodeCode Available
Exploring Human-Like Thinking in Search Simulations with Large Language Models	Apr 10, 2025	Data AugmentationInformation Retrieval	CodeCode Available
WasteGAN: Data Augmentation for Robotic Waste Sorting through Generative Adversarial Networks	Sep 25, 2024	Data AugmentationSemantic Segmentation	CodeCode Available
ScanBank: A Benchmark Dataset for Figure Extraction from Scanned Electronic Theses and Dissertations	Jun 23, 2021	Data AugmentationTable Extraction	CodeCode Available
Towards Generalising Neural Topical Representations	Jul 24, 2023	Data AugmentationTopic Models	CodeCode Available
CoopSubNet: Cooperating Subnetwork for Data-Driven Regularization of Deep Networks under Limited Training Budgets	Jun 13, 2019	Data Augmentation	CodeCode Available
Convolutional Recurrent Neural Networks for Electrocardiogram Classification	Oct 17, 2017	ClassificationData Augmentation	CodeCode Available
SCENE: Self-Labeled Counterfactuals for Extrapolating to Negative Examples	May 13, 2023	Data AugmentationNatural Language Inference	CodeCode Available
Synthesizing and Identifying Noise Levels in Autonomous Vehicle Camera Radar Datasets	May 1, 2025	Autonomous NavigationData Augmentation	CodeCode Available
Neural TMDlayer: Modeling Instantaneous flow of features via SDE Generators	Aug 19, 2021	Data AugmentationFew-Shot Image Classification	CodeCode Available
Exploring Data Augmentation for Code Generation Tasks	Feb 5, 2023	Code GenerationCode Summarization	CodeCode Available
Context-Aware Image Matting for Simultaneous Foreground and Alpha Estimation	Sep 20, 2019	Data AugmentationDecoder	CodeCode Available
NeuroCounterfactuals: Beyond Minimal-Edit Counterfactuals for Richer Data Augmentation	Oct 22, 2022	counterfactualData Augmentation	CodeCode Available
Exploring Contrast Consistency of Open-Domain Question Answering Systems on Minimally Edited Questions	May 23, 2023	Data AugmentationLanguage Modeling	CodeCode Available
Conversation Graph: Data Augmentation, Training and Evaluation for Non-Deterministic Dialogue Management	Oct 29, 2020	Data AugmentationDialogue Management	CodeCode Available
SCISSOR: Mitigating Semantic Bias through Cluster-Aware Siamese Networks for Robust Classification	Jun 17, 2025	Data AugmentationRobust classification	CodeCode Available
Towards Generalizable SER: Soft Labeling and Data Augmentation for Modeling Temporal Emotion Shifts in Large-Scale Multilingual Speech	Nov 15, 2023	Contrastive LearningCross-corpus	CodeCode Available
A Deep Learning Model for Chilean Bills Classification	Dec 21, 2019	ClassificationData Augmentation	CodeCode Available

Show:10 25 50

← PrevPage 158 of 168Next →

All datasets ImageNet CIFAR-10 GA1457

Benchmark Results

#	Model	Metric	Claimed	Verified	Status
1	DeiT-B (+MixPro)	Accuracy (%)	82.9	—	Unverified
2	ResNet-200 (DeepAA)	Accuracy (%)	81.32	—	Unverified
3	DeiT-S (+MixPro)	Accuracy (%)	81.3	—	Unverified
4	ResNet-200 (Fast AA)	Accuracy (%)	80.6	—	Unverified
5	ResNet-200 (UA)	Accuracy (%)	80.4	—	Unverified
6	ResNet-200 (AA)	Accuracy (%)	80	—	Unverified
7	ResNet-50 (DeepAA)	Accuracy (%)	78.3	—	Unverified
8	ResNet-50 (TA wide)	Accuracy (%)	78.07	—	Unverified
9	ResNet-50 (LoRot-E)	Accuracy (%)	77.72	—	Unverified
10	ResNet-50 (LoRot-I)	Accuracy (%)	77.71	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	WideResNet-40-2 (Faster AA)	Percentage error	3.7	—	Unverified
2	Shake-Shake (26 2×32d) (Faster AA)	Percentage error	2.7	—	Unverified
3	WideResNet-28-10 (Faster AA)	Percentage error	2.6	—	Unverified
4	Shake-Shake (26 2×112d) (Faster AA)	Percentage error	2	—	Unverified
5	Shake-Shake (26 2×96d) (Faster AA)	Percentage error	2	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	DiffAug	Classification Accuracy	92.7	—	Unverified
2	PaCMAP	Classification Accuracy	85.3	—	Unverified
3	hNNE	Classification Accuracy	77.4	—	Unverified
4	TopoAE	Classification Accuracy	74.6	—	Unverified