Audio Classification

Audio Classification is a machine learning task that involves identifying and tagging audio signals into different classes or categories. The goal of audio classification is to enable machines to automatically recognize and distinguish between different types of audio, such as music, speech, and environmental sounds.

Papers

Recently Added Most Hyped Most Active Needs Verification Most Verified

Showing 1–10 of 361 papers

Title	Date	Tasks	Status	Hype
MUPAX: Multidimensional Problem Agnostic eXplainable AI	Jul 17, 2025	Anatomical Landmark DetectionAudio Classification	—Unverified	0
Task-Specific Audio Coding for Machines: Machine-Learned Latent Features Are Codes for That Machine	Jul 17, 2025	Audio ClassificationAutomatic Speech Recognition	—Unverified	0
Neuromorphic Wireless Split Computing with Resonate-and-Fire Neurons	Jun 24, 2025	Audio Classification	—Unverified	0
Fully Few-shot Class-incremental Audio Classification Using Multi-level Embedding Extractor and Ridge Regression Classifier	Jun 23, 2025	Audio Classification	CodeCode Available	0
Adaptive Differential Denoising for Respiratory Sounds Classification	Jun 3, 2025	Audio ClassificationClassification	CodeCode Available	1
Spectrotemporal Modulation: Efficient and Interpretable Feature Representation for Classifying Speech, Music, and Environmental Sounds	May 29, 2025	Audio Classification	CodeCode Available	0
Patient-Aware Feature Alignment for Robust Lung Sound Classification:Cohesion-Separation and Global Alignment Losses	May 28, 2025	Audio ClassificationLung Sound Classification	CodeCode Available	0
15,500 Seconds: Lean UAV Classification Leveraging PEFT and Pre-Trained Networks	May 21, 2025	Audio ClassificationData Augmentation	CodeCode Available	0
4,500 Seconds: Small Data Training Approaches for Deep UAV Audio Classification	May 21, 2025	Audio Classificationparameter-efficient fine-tuning	CodeCode Available	0
Large Language Models Implicitly Learn to See and Hear Just By Reading	May 20, 2025	Audio Classificationimage-classification	—Unverified	0

Show:10 25 50

← PrevPage 1 of 37Next →

All datasets AudioSet ESC-50 ICBHI Respiratory Sound Database VGGSound SHD FSD50K Balanced Audio Set Speech Commands SSC BirdCLEF 2021 DCASE EPIC-KITCHENS-100

Benchmark Results

#	Model	Metric	Claimed	Verified	Status
1	Event-SSM	Percentage correct	95.9	—	Unverified
2	SNN with Dilated Convolution with Learnable Spacings	Percentage correct	95.1	—	Unverified
3	SNN featuring learnable axonal delays with adaptively delay caps	Percentage correct	92.45	—	Unverified
4	CNN	Percentage correct	92.4	—	Unverified
5	SNN with spatio-temporal filters and attention	Percentage correct	92.4	—	Unverified
6	SNN with temporal-wise attention	Percentage correct	91.1	—	Unverified
7	SNN	Percentage correct	87	—	Unverified
8	Recurrent convolutional SNN	Percentage correct	83.5	—	Unverified
9	Recurrent SNN	Percentage correct	83.2	—	Unverified
10	Sparse Spiking Gradient Descent	Percentage correct	77.5	—	Unverified