SOTAVerified|Agents Browse Leaderboard About Blog

Audio Tagging

Audio tagging is a task to predict the tags of audio clips. Audio tagging tasks include music tagging, acoustic scene classification, audio event classification, etc.

Papers

Recently Added Most Hyped Most Active Needs Verification Most Verified

Showing 1–10 of 81 papers

Title	Date	Tasks	Status	Hype
Performance improvement of spatial semantic segmentation with enriched audio features and agent-based error correction for DCASE 2025 Challenge Task 4	Jun 26, 2025	Audio TaggingSemantic Segmentation	—Unverified	0
USAD: Universal Speech and Audio Representation via Distillation	Jun 23, 2025	Audio TaggingRepresentation Learning	—Unverified	0
Enhancing Speech Emotion Recognition with Graph-Based Multimodal Fusion and Prosodic Features for the Speech Emotion Recognition in Naturalistic Conditions Challenge at Interspeech 2025	Jun 2, 2025	Audio TaggingEmotion Recognition	—Unverified	0
M2D2: Exploring General-purpose Audio-Language Representations Beyond CLAP	Mar 28, 2025	Audio captioningAudio Classification	—Unverified	0
Baseline Systems and Evaluation Metrics for Spatial Semantic Segmentation of Sound Scenes	Mar 28, 2025	Audio TaggingSemantic Segmentation	CodeCode Available	1
Hierarchical Label Propagation: A Model-Size-Dependent Performance Booster for AudioSet Tagging	Mar 26, 2025	Audio Tagging	CodeCode Available	0
Solla: Towards a Speech-Oriented LLM That Hears Acoustic Context	Mar 19, 2025	Audio captioningAudio Question Answering	CodeCode Available	0
Exploring Performance-Complexity Trade-Offs in Sound Event Detection Models	Mar 14, 2025	Audio TaggingEvent Detection	CodeCode Available	1
Masked Latent Prediction and Classification for Self-Supervised Audio Representation Learning	Feb 17, 2025	Audio ClassificationAudio Tagging	CodeCode Available	1
Knowledge Distillation for Real-Time Classification of Early Media in Voice Communications	Oct 28, 2024	Audio TaggingClassification	—Unverified	0

Show:10 25 50

← PrevPage 1 of 9Next →

Benchmark Results

#	Model	Metric	Claimed	Verified	Status
1	CAV-MAE (Audio-Visual)	mean average precision	0.51	—	Unverified
2	mn40_as (Ensemble)	mean average precision	0.5	—	Unverified
3	PaSST	mean average precision	0.5	—	Unverified
4	DyMN-L (Audio-Only, Single)	mean average precision	0.49	—	Unverified
5	Audio Spectrogram Transformer	mean average precision	0.49	—	Unverified
6	mn40_as (Single)	mean average precision	0.48	—	Unverified
7	PSLA	mean average precision	0.47	—	Unverified
8	ST-SED	mean average precision	0.47	—	Unverified
9	CAV-MAE (Audio-Only)	mean average precision	0.47	—	Unverified
10	ERANN-1-6	mean average precision	0.45	—	Unverified