Audio Classification

Audio Classification is a machine learning task that involves identifying and tagging audio signals into different classes or categories. The goal of audio classification is to enable machines to automatically recognize and distinguish between different types of audio, such as music, speech, and environmental sounds.

Papers

Recently Added Most Hyped Most Active Needs Verification Most Verified

Showing 301–350 of 361 papers

Title	Date	Tasks	Status
Mirasol3B: A Multimodal Autoregressive model for time-aligned and contextual modalities	Nov 9, 2023	Action ClassificationAudio Classification	—Unverified
Mixer is more than just a model	Feb 28, 2024	Audio ClassificationEnvironmental Sound Classification	—Unverified
ModalityMirror: Improving Audio Classification in Modality Heterogeneity Federated Learning with Multimodal Distillation	Aug 28, 2024	Audio ClassificationFederated Learning	—Unverified
Multi-Format Contrastive Learning of Audio Representations	Mar 11, 2021	Audio ClassificationContrastive Learning	—Unverified
Multi-label Zero-Shot Audio Classification with Temporal Attention	Aug 31, 2024	Audio ClassificationClassification	—Unverified
Multi-modal Self-Supervision from Generalized Data Transformations	Sep 28, 2020	Audio ClassificationRetrieval	—Unverified
Multiscale Audio Spectrogram Transformer for Efficient Audio Classification	Mar 19, 2023	Audio ClassificationClassification	—Unverified
Multiscale Multimodal Transformer for Multimodal Action Recognition	Sep 22, 2022	Action RecognitionAudio Classification	—Unverified
MUPAX: Multidimensional Problem Agnostic eXplainable AI	Jul 17, 2025	Anatomical Landmark DetectionAudio Classification	—Unverified
Neural Architecture Search for Energy Efficient Always-on Audio Models	Feb 9, 2022	Audio ClassificationClassification	—Unverified
Neuromorphic Wireless Split Computing with Resonate-and-Fire Neurons	Jun 24, 2025	Audio Classification	—Unverified
OmniVec2 - A Novel Transformer based Network for Large Scale Multimodal and Multitask Learning	Jan 1, 2024	3D Point Cloud ClassificationAction Classification	—Unverified
OmniVec: Learning robust representations with cross modal sharing	Nov 7, 2023	3D Point Cloud ClassificationAction Classification	—Unverified
On fine-tuning of Autoencoders for Fuzzy rule classifiers	Jun 21, 2021	Audio ClassificationClassification	—Unverified
On Negative Sampling for Audio-Visual Contrastive Learning from Movies	Apr 29, 2022	Action RecognitionAudio Classification	—Unverified
On the choice of the optimal temporal support for audio classification with Pre-trained embeddings	Dec 21, 2023	Audio Classification	—Unverified
On the performance of residual block design alternatives in convolutional neural networks for end-to-end audio classification	Jun 26, 2019	Audio ClassificationClassification	—Unverified
Over-Parameterization and Generalization in Audio Classification	Jul 19, 2021	Acoustic Scene ClassificationAudio Classification	—Unverified
Pex: Memory-efficient Microcontroller Deep Learning through Partial Execution	Nov 30, 2022	Audio ClassificationDeep Learning	—Unverified
PolyViT: Co-training Vision Transformers on Images, Videos and Audio	Nov 25, 2021	Audio Classification	—Unverified
Private Speech Classification with Secure Multiparty Computation	Jul 1, 2020	Audio ClassificationAudio Signal Processing	—Unverified
Progressive Rock Music Classification	Apr 15, 2025	Audio ClassificationClassification	—Unverified
Pruning random resistive memory for optimizing analogue AI	Nov 13, 2023	Audio ClassificationImage Segmentation	—Unverified
Raw Audio Classification with Cosine Convolutional Neural Network (CosCovNN)	Nov 30, 2024	Audio Classification	—Unverified
Raw Waveform-based Audio Classification Using Sample-level CNN Architectures	Dec 4, 2017	Audio ClassificationClassification	—Unverified
Real-time Detection of AI-Generated Speech for DeepFake Voice Conversion	Aug 24, 2023	Audio ClassificationBinary Classification	—Unverified
Representations of Sound in Deep Learning of Audio Features from Music	Dec 8, 2017	Audio ClassificationGeneral Classification	—Unverified
"Seeing Sound": Audio Classification with the Wigner-Wille Distribution and Convolutional Neural Networks	Nov 6, 2022	Audio ClassificationSelf-Driving Cars	—Unverified
Segment Relevance Estimation for Audio Analysis and Weakly-Labelled Classification	Nov 12, 2019	Audio ClassificationClassification	—Unverified
Self-paced ensemble learning for speech and audio classification	Mar 22, 2021	Audio ClassificationClassification	—Unverified
SemanticAC: Semantics-Assisted Framework for Audio Classification	Feb 12, 2023	Audio ClassificationClassification	—Unverified
Semi Supervised Learning For Few-shot Audio Classification By Episodic Triplet Mining	Feb 16, 2021	Audio ClassificationEvent Detection	—Unverified
Simultaneously Learning Architectures and Features of Deep Neural Networks	Jun 11, 2019	Audio ClassificationClassification	—Unverified
Single-Layer Vision Transformers for More Accurate Early Exits with Less Overhead	May 19, 2021	Audio ClassificationCrowd Counting	—Unverified
Sparse Filtering	Dec 1, 2011	Audio ClassificationClassification	—Unverified
Spectral and Rhythm Features for Audio Classification with Deep Convolutional Neural Networks	Oct 9, 2024	Audio ClassificationRhythm	—Unverified
SpectroBank: A filter-bank convolutional layer for CNN-based audio applications	Sep 25, 2019	Audio Classification	—Unverified
SpliceOut: A Simple and Efficient Audio Augmentation Method	Sep 30, 2021	Audio ClassificationAutomatic Speech Recognition	—Unverified
STREAM: A Universal State-Space Model for Sparse Geometric Data	Nov 19, 2024	Audio ClassificationEvent-based vision	—Unverified
Symbolic Audio Classification via Modal Decision Tree Learning	Mar 21, 2025	Audio ClassificationClassification	—Unverified
Tackling Interpretability in Audio Classification Networks with Non-negative Matrix Factorization	May 11, 2023	Audio Classification	—Unverified
Task-Specific Audio Coding for Machines: Machine-Learned Latent Features Are Codes for That Machine	Jul 17, 2025	Audio ClassificationAutomatic Speech Recognition	—Unverified
Temporal Knowledge Distillation for On-device Audio Classification	Oct 27, 2021	Audio ClassificationClassification	—Unverified
Temporal-wise Attention Spiking Neural Networks for Event Streams Classification	Jul 25, 2021	Audio ClassificationClassification	—Unverified
The Heidelberg spiking datasets for the systematic evaluation of spiking neural networks	Oct 16, 2019	Audio ClassificationGeneral Classification	—Unverified
Towards Robust Few-shot Class Incremental Learning in Audio Classification using Contrastive Representation	Jul 27, 2024	Audio Classificationclass-incremental learning	—Unverified
Transformer-based Sequence Labeling for Audio Classification based on MFCCs	Apr 30, 2023	Audio ClassificationClassification	—Unverified
TSPE: Task-Specific Prompt Ensemble for Improved Zero-Shot Audio Classification	Dec 31, 2024	Audio ClassificationClassification	—Unverified
Tuning In: Analysis of Audio Classifier Performance in Clinical Settings with Limited Data	Feb 7, 2024	Audio ClassificationClassification	—Unverified
Unsupervised feature learning for audio classification using convolutional deep belief networks	Dec 1, 2009	Audio ClassificationDeep Learning	—Unverified

Show:10 25 50

← PrevPage 7 of 8Next →

All datasets AudioSet ESC-50 ICBHI Respiratory Sound Database VGGSound SHD FSD50K Balanced Audio Set Speech Commands SSC BirdCLEF 2021 DCASE EPIC-KITCHENS-100

Benchmark Results

#	Model	Metric	Claimed	Verified	Status
1	OmniVec2	Test mAP	0.56	—	Unverified
2	OmniVec	Test mAP	0.55	—	Unverified
3	EquiAV	Test mAP	0.55	—	Unverified
4	MAViL (Audio-Visual, single)	Test mAP	0.53	—	Unverified
5	Audiovisual Masked Autoencoder (Audiovisual, Single)	Test mAP	0.52	—	Unverified
6	CAV-MAE (Audio-Visual)	Test mAP	0.51	—	Unverified
7	BEATs (Audio-only, Ensemble)	Test mAP	0.51	—	Unverified
8	UAVM (Audio + Video)	Test mAP	0.5	—	Unverified
9	SSLAM (Audio-Only, Single)	Test mAP	0.5	—	Unverified
10	mn40_as (Ensemble)	Test mAP	0.5	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	OmniVec2	Top-1 Accuracy	99.1	—	Unverified
2	InternVideo2	Top-1 Accuracy	98.6	—	Unverified
3	M2D2 AS+	Top-1 Accuracy	98.5	—	Unverified
4	OmniVec	Top-1 Accuracy	98.4	—	Unverified
5	BEATs	Top-1 Accuracy	98.1	—	Unverified
6	mn40_as	Top-1 Accuracy	97.45	—	Unverified
7	M2D-CLAP/0.7	Top-1 Accuracy	97.4	—	Unverified
8	DyMN-L	Top-1 Accuracy	97.4	—	Unverified
9	M2D-AS/0.7	Top-1 Accuracy	97.2	—	Unverified
10	HTS-AT	Top-1 Accuracy	97	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	ADD	ICBHI Score	65.53	—	Unverified
2	BEATs (PAFA)	ICBHI Score	64.84	—	Unverified
3	BTS	ICBHI Score	63.54	—	Unverified
4	BEATs (CE)	ICBHI Score	63.49	—	Unverified
5	M2D-X/0.7 (η=0.3)	ICBHI Score	63.29	—	Unverified
6	CycleGuardian	ICBHI Score	63.26	—	Unverified
7	M2D/0.7 (e=0.3)	ICBHI Score	62.73	—	Unverified
8	Audio-CLAP	ICBHI Score	62.56	—	Unverified
9	AST (Patch-Mix CL)	ICBHI Score	62.37	—	Unverified
10	AFT on Mixed-500	ICBHI Score	61.79	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	MBT (AV)	Top 5 Accuracy	85.6	—	Unverified
2	Mirasol3B	Top 1 Accuracy	69.8	—	Unverified
3	CA2ST(B/16)	Top 1 Accuracy	68.3	—	Unverified
4	ONE-PEACE (Audio-Visual)	Top 1 Accuracy	68.2	—	Unverified
5	CAVA(B/16)	Top 1 Accuracy	68.2	—	Unverified
6	EquiAV	Top 1 Accuracy	67.1	—	Unverified
7	MAViL	Top 1 Accuracy	67.1	—	Unverified
8	MMT (Audio-Visual)	Top 1 Accuracy	66.2	—	Unverified
9	CAV-MAE (Audio-Visual)	Top 1 Accuracy	65.9	—	Unverified
10	UAVM (Audio + Video)	Top 1 Accuracy	65.8	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	Event-SSM	Percentage correct	95.9	—	Unverified
2	SNN with Dilated Convolution with Learnable Spacings	Percentage correct	95.1	—	Unverified
3	SNN featuring learnable axonal delays with adaptively delay caps	Percentage correct	92.45	—	Unverified
4	CNN	Percentage correct	92.4	—	Unverified
5	SNN with spatio-temporal filters and attention	Percentage correct	92.4	—	Unverified
6	SNN with temporal-wise attention	Percentage correct	91.1	—	Unverified
7	SNN	Percentage correct	87	—	Unverified
8	Recurrent convolutional SNN	Percentage correct	83.5	—	Unverified
9	Recurrent SNN	Percentage correct	83.2	—	Unverified
10	Sparse Spiking Gradient Descent	Percentage correct	77.5	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	ONE-PEACE	mAP	69.7	—	Unverified
2	MN	mAP	65.6	—	Unverified
3	PaSST-S	mAP	65.55	—	Unverified
4	DyMN-L	mAP	65.5	—	Unverified
5	PaSST-N-S	mAP	64.2	—	Unverified
6	LHGNN	Mean AP	59	—	Unverified
7	PSLA	mAP	56.71	—	Unverified
8	MATPAC (SSL Model)	mAP	55.2	—	Unverified
9	Temporal Knowledge Distillation for On-device Audio Classification	mAP	54.8	—	Unverified
10	Large 6-Layer Transformer with Pooling	mAP	53.7	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	EquiAV	Mean AP	42.4	—	Unverified
2	SSLAM	Mean AP	40.9	—	Unverified
3	EAT	Mean AP	40.3	—	Unverified
4	BEATs	Mean AP	38.9	—	Unverified
5	Base (ours)	Mean AP	37.4	—	Unverified
6	SSAST-PATCH	Mean AP	31	—	Unverified
7	SSAST-FRAME	Mean AP	29.2	—	Unverified
8	Conformer	Mean AP	27.6	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	PDC	Accuracy	97.8	—	Unverified
2	ASM-RH	Accuracy	96.51	—	Unverified
3	EfficientLEAF	Accuracy	95.2	—	Unverified
4	melspect	Accuracy	95.1	—	Unverified
5	LEAF	Accuracy	95.1	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	Event-SSM	Accuracy	88.4	—	Unverified
2	SNN with Dilated Convolution with Learnable Spacings	Accuracy	80.69	—	Unverified
3	RadLIF	Accuracy	77.4	—	Unverified
4	SpikGRU	Accuracy	77	—	Unverified
5	Adaptive SRNN	Accuracy	74.2	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	EfficientLEAF (8s)	Accuracy	72.2	—	Unverified
2	EfficientLEAF	Accuracy	42.9	—	Unverified
3	LEAF	Accuracy	42.3	—	Unverified
4	melspect	Accuracy	39.9	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	CrissCross (AudioSet)	Top-1 Accuracy	97	—	Unverified
2	CrissCross (Kinetics-400)	Top-1 Accuracy	96	—	Unverified
3	XDC	Top-1 Accuracy	95	—	Unverified
4	CrissCross (Kinetics-Sound)	Top-1 Accuracy	93	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	Audiovisual Masked Autoencoder (Audiovisual, Single)	Top-1 Action	46	—	Unverified
2	Audiovisual Masked Autoencoder (Video-only, Single)	Top-1 Action	45.8	—	Unverified
3	Audiovisual Masked Autoencoder (Audio-only, Single)	Top-1 Action	19.7	—	Unverified
4	PlayItBackX3	Top-1 Action	15.9	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	M2D-AS/0.7	Mean AP	48.5	—	Unverified
2	LHGNN	Mean AP	46.6	—	Unverified
3	VAB-Encodec (Ours)	Mean AP	38.7	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	EfficientLEAF	Accuracy	60.2	—	Unverified
2	melspect	Accuracy	58.8	—	Unverified
3	LEAF	Accuracy	50.2	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	AUCO ResNet	AUC	0.82	—	Unverified
2	DenseNet 201	AUC	0.6	—	Unverified
3	Inception ResNet V2	AUC	0.6	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	Mirasol3B	Accuracy	78.2	—	Unverified
2	CA2ST(B/16)	Accuracy	61	—	Unverified
3	CAVA(B/16)	Accuracy	60.3	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	ASM-RH-A	Top-1 Accuracy	75.4	—	Unverified
2	ERANN-0-4	Top-1 Accuracy	74.8	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	Qwen-Audio	Accuracy	92.89	—	Unverified
2	VocalSound Baseline	Accuracy	90.5	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	XGBoost (330)	Accuracy (10-fold)	99.3	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	animal2vec	AP	0.91	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	Audio	Accuracy (%)	64.5	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	CDIL	FruitFlies	97.09	—	Unverified