Data Augmentation

Data augmentation involves techniques used for increasing the amount of data, based on different modifications, to expand the amount of examples in the original dataset. Data augmentation not only helps to grow the dataset but it also increases the diversity of the dataset. When training machine learning models, data augmentation acts as a regularizer and helps to avoid overfitting.

Data augmentation techniques have been found useful in domains like NLP and computer vision. In computer vision, transformations like cropping, flipping, and rotation are used. In NLP, data augmentation techniques can include swapping, deletion, random insertion, among others.

Papers

Recently Added Most Hyped Most Active Needs Verification Most Verified

Showing 351–375 of 8378 papers

Title	Date	Tasks	Status	Hype
7T MRI Synthesization from 3T Acquisitions	Mar 13, 2024	Data AugmentationImage Enhancement	CodeCode Available	1
Dataset Condensation for Time Series Classification via Dual Domain Matching	Mar 12, 2024	Data AugmentationDataset Condensation	CodeCode Available	1
Repeated Padding for Sequential Recommendation	Mar 11, 2024	Common Sense ReasoningData Augmentation	CodeCode Available	1
CAM Back Again: Large Kernel CNNs from a Weakly Supervised Object Localization Perspective	Mar 11, 2024	Data AugmentationObject Localization	CodeCode Available	1
Amharic LLaMA and LLaVA: Multimodal LLMs for Low Resource Languages	Mar 11, 2024	BenchmarkingData Augmentation	CodeCode Available	1
PromptIQA: Boosting the Performance and Generalization for No-Reference Image Quality Assessment via Prompts	Mar 8, 2024	Data AugmentationDiversity	CodeCode Available	1
IRCoder: Intermediate Representations Make Language Models Robust Multilingual Code Generators	Mar 6, 2024	Code CompletionCode Generation	CodeCode Available	1
FedHCDR: Federated Cross-Domain Recommendation with Hypergraph Signal Decoupling	Mar 5, 2024	Contrastive LearningData Augmentation	CodeCode Available	1
Masked Thought: Simply Masking Partial Reasoning Steps Can Improve Mathematical Reasoning Learning of Language Models	Mar 4, 2024	Data AugmentationGSM8K	CodeCode Available	1
Fourier-basis Functions to Bridge Augmentation Gap: Rethinking Frequency Augmentation in Image Classification	Mar 4, 2024	Data Augmentationimage-classification	CodeCode Available	1
WHU-Synthetic: A Synthetic Perception Dataset for 3-D Multitask Model Research	Feb 29, 2024	3D ReconstructionAttribute	CodeCode Available	1
3DSFLabelling: Boosting 3D Scene Flow Estimation by Pseudo Auto-labelling	Feb 28, 2024	Autonomous DrivingData Augmentation	CodeCode Available	1
CounterCurate: Enhancing Physical and Semantic Visio-Linguistic Compositional Reasoning via Counterfactual Examples	Feb 20, 2024	counterfactualData Augmentation	CodeCode Available	1
LEIA: Facilitating Cross-lingual Knowledge Transfer in Language Models with Entity-based Data Augmentation	Feb 18, 2024	Cross-Lingual TransferData Augmentation	CodeCode Available	1
Semi-supervised Medical Image Segmentation Method Based on Cross-pseudo Labeling Leveraging Strong and Weak Data Augmentation Strategies	Feb 17, 2024	Data AugmentationDiversity	CodeCode Available	1
Parametric Augmentation for Time Series Contrastive Learning	Feb 16, 2024	Contrastive LearningData Augmentation	CodeCode Available	1
ExaRanker-Open: Synthetic Explanation for IR using Open-Source LLMs	Feb 9, 2024	Data AugmentationInformation Retrieval	CodeCode Available	1
CultureLLM: Incorporating Cultural Differences into Large Language Models	Feb 9, 2024	Data AugmentationPrompt Engineering	CodeCode Available	1
UltraLink: An Open-Source Knowledge-Enhanced Multilingual Supervised Fine-tuning Dataset	Feb 7, 2024	Cross-Lingual TransferData Augmentation	CodeCode Available	1
SPARQL Generation: an analysis on fine-tuning OpenLLaMA for Question Answering over a Life Science Knowledge Graph	Feb 7, 2024	Data AugmentationKnowledge Graphs	CodeCode Available	1
CodeIt: Self-Improving Language Models with Prioritized Hindsight Replay	Feb 7, 2024	ARCData Augmentation	CodeCode Available	1
Polyp-DDPM: Diffusion-Based Semantic Polyp Synthesis for Enhanced Segmentation	Feb 6, 2024	Data AugmentationSegmentation	CodeCode Available	1
TimeSiam: A Pre-Training Framework for Siamese Time-Series Modeling	Feb 4, 2024	Contrastive LearningData Augmentation	CodeCode Available	1
Enhanced Sound Event Localization and Detection in Real 360-degree audio-visual soundscapes	Jan 29, 2024	Data AugmentationSound Event Localization and Detection	CodeCode Available	1
Closing the Gap between TD Learning and Supervised Learning -- A Generalisation Point of View	Jan 20, 2024	Data AugmentationReinforcement Learning (RL)	CodeCode Available	1

Show:10 25 50

← PrevPage 15 of 336Next →

All datasets ImageNet CIFAR-10 GA1457

Benchmark Results

#	Model	Metric	Claimed	Verified	Status
1	DeiT-B (+MixPro)	Accuracy (%)	82.9	—	Unverified
2	ResNet-200 (DeepAA)	Accuracy (%)	81.32	—	Unverified
3	DeiT-S (+MixPro)	Accuracy (%)	81.3	—	Unverified
4	ResNet-200 (Fast AA)	Accuracy (%)	80.6	—	Unverified
5	ResNet-200 (UA)	Accuracy (%)	80.4	—	Unverified
6	ResNet-200 (AA)	Accuracy (%)	80	—	Unverified
7	ResNet-50 (DeepAA)	Accuracy (%)	78.3	—	Unverified
8	ResNet-50 (TA wide)	Accuracy (%)	78.07	—	Unverified
9	ResNet-50 (LoRot-E)	Accuracy (%)	77.72	—	Unverified
10	ResNet-50 (LoRot-I)	Accuracy (%)	77.71	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	WideResNet-40-2 (Faster AA)	Percentage error	3.7	—	Unverified
2	Shake-Shake (26 2×32d) (Faster AA)	Percentage error	2.7	—	Unverified
3	WideResNet-28-10 (Faster AA)	Percentage error	2.6	—	Unverified
4	Shake-Shake (26 2×96d) (Faster AA)	Percentage error	2	—	Unverified
5	Shake-Shake (26 2×112d) (Faster AA)	Percentage error	2	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	DiffAug	Classification Accuracy	92.7	—	Unverified
2	PaCMAP	Classification Accuracy	85.3	—	Unverified
3	hNNE	Classification Accuracy	77.4	—	Unverified
4	TopoAE	Classification Accuracy	74.6	—	Unverified