Audio Classification

Audio Classification is a machine learning task that involves identifying and tagging audio signals into different classes or categories. The goal of audio classification is to enable machines to automatically recognize and distinguish between different types of audio, such as music, speech, and environmental sounds.

Papers

Recently Added Most Hyped Most Active Needs Verification Most Verified

Showing 301–350 of 361 papers

Title	Date	Tasks	Status
Exploring Meta Information for Audio-based Zero-shot Bird Classification	Sep 15, 2023	Audio ClassificationZero-shot Audio Classification	CodeCode Available
Episodic fine-tuning prototypical networks for optimization-based few-shot learning: Application to audio classification	Oct 4, 2024	Audio ClassificationFew-Shot Audio Classification	CodeCode Available
Enhancing Audio-Language Models through Self-Supervised Post-Training with Text-Audio Pairs	Aug 17, 2024	Audio ClassificationContrastive Learning	CodeCode Available
EDAC: Efficient Deployment of Audio Classification Models For COVID-19 Detection	Sep 11, 2023	Audio ClassificationNetwork Pruning	CodeCode Available
Deep Feature Learning for Medical Acoustics	Aug 5, 2022	Audio Classification	CodeCode Available
A Deep Bag-of-Features Model for Music Auto-Tagging	Aug 20, 2015	Audio ClassificationInformation Retrieval	CodeCode Available
Cross-modal supervised learning for better acoustic representations	Nov 15, 2019	Audio ClassificationGeneral Classification	CodeCode Available
SpectNet : End-to-End Audio Signal Classification Using Learnable Spectrograms	Nov 17, 2022	Acoustic Scene ClassificationAnomaly Detection	CodeCode Available
A Closer Look at Weak Label Learning for Audio Events	Apr 24, 2018	Audio ClassificationEvent Detection	CodeCode Available
A Training Framework for Optimal and Stable Training of Polynomial Neural Networks	May 16, 2025	Audio ClassificationHomomorphic Encryption for Deep Learning	CodeCode Available
Spectrotemporal Modulation: Efficient and Interpretable Feature Representation for Classifying Speech, Music, and Environmental Sounds	May 29, 2025	Audio Classification	CodeCode Available
Convolutional RNN: an Enhanced Model for Extracting Features from Sequential Data	Feb 18, 2016	Audio Classification	CodeCode Available
Ubicoustics: Plug-and-Play Acoustic Activity Recognition	Oct 14, 2018	Activity RecognitionAudio Classification	CodeCode Available
On-device Online Learning and Semantic Management of TinyML Systems	May 13, 2024	Audio Classificationimage-classification	CodeCode Available
Compact Global Descriptor for Neural Networks	Jul 23, 2019	Audio ClassificationDeep Attention	CodeCode Available
Auto deep learning for bioacoustic signals	Nov 8, 2023	Audio ClassificationClassification	CodeCode Available
AudRandAug: Random Image Augmentations for Audio Classification	Sep 9, 2023	Audio ClassificationClassification	CodeCode Available
S-TLLR: STDP-inspired Temporal Local Learning Rule for Spiking Neural Networks	Jun 27, 2023	Audio ClassificationEvent-based Optical Flow	CodeCode Available
nEMO: Dataset of Emotional Speech in Polish	Apr 9, 2024	Audio ClassificationEmotion Recognition	CodeCode Available
On the Veracity of Local, Model-agnostic Explanations in Audio Classification: Targeted Investigations with Adversarial Examples	Jul 19, 2021	Audio Classification	CodeCode Available
A Study on Broadcast Networks for Music Genre Classification	Aug 25, 2022	Audio ClassificationClassification	CodeCode Available
Multi-level Attention Model for Weakly Supervised Audio Classification	Mar 6, 2018	Audio Classification	CodeCode Available
Multi-label audio classification with a noisy zero-shot teacher	Jul 20, 2024	Audio ClassificationData Augmentation	CodeCode Available
Patient-Aware Feature Alignment for Robust Lung Sound Classification:Cohesion-Separation and Global Alignment Losses	May 28, 2025	Audio ClassificationLung Sound Classification	CodeCode Available
Specifying Weight Priors in Bayesian Deep Neural Networks with Empirical Bayes	Jun 12, 2019	Activity RecognitionAudio Classification	CodeCode Available
Performance Analysis of Hybrid Quantum-Classical Convolutional Neural Networks for Audio Classification	Nov 4, 2024	Audio ClassificationQuantum Machine Learning	CodeCode Available
Audio-Visual Model Distillation Using Acoustic Images	Apr 16, 2019	Action RecognitionAudio Classification	CodeCode Available
MAP-SNN: Mapping Spike Activities with Multiplicity, Adaptability, and Plasticity into Bio-Plausible Spiking Neural Networks	Apr 21, 2022	Audio ClassificationDiversity	CodeCode Available
Play It Back: Iterative Attention for Audio Recognition	Oct 20, 2022	Audio Classification	CodeCode Available
Augmenting Deep Classifiers with Polynomial Neural Networks	Apr 16, 2021	Audio ClassificationGeneral Classification	CodeCode Available
Study of positional encoding approaches for Audio Spectrogram Transformers	Oct 13, 2021	Audio Classification	CodeCode Available
Audiovisual Masked Autoencoders	Dec 9, 2022	Audio ClassificationRepresentation Learning	CodeCode Available
Audiogmenter: a MATLAB Toolbox for Audio Data Augmentation	Dec 11, 2019	Audio ClassificationData Augmentation	CodeCode Available
Uncertainty Calibration for Deep Audio Classifiers	Jun 27, 2022	Audio ClassificationClassification	CodeCode Available
Pruning vs XNOR-Net: A Comprehensive Study of Deep Learning for Audio Classification on Edge-devices	Aug 13, 2021	Audio ClassificationClassification	CodeCode Available
LungBRN: A Smart Digital Stethoscope for Detecting Respiratory Disease Using bi-ResNet Deep Learning Algorithm	Dec 5, 2019	Audio ClassificationDiagnostic	CodeCode Available
LungAttn: advanced lung sound classification using attention mechanism with dual TQWT and triple STFT spectrogram	Oct 29, 2021	Audio ClassificationLung Sound Classification	CodeCode Available
Rank-based loss for learning hierarchical representations	Oct 11, 2021	Audio ClassificationTriplet	CodeCode Available
AudioFormer: Audio Transformer learns audio feature representations from discrete acoustic codes	Aug 14, 2023	Audio ClassificationClassification	CodeCode Available
AsthmaSCELNet: A Lightweight Supervised Contrastive Embedding Learning Framework For Asthma Classification Using Lung Sounds	Aug 1, 2023	Asthmatic Lung Sound ClassificationAudio Classification	CodeCode Available
Look, Listen and Learn	May 23, 2017	Audio ClassificationGeneral Classification	CodeCode Available
AsTFSONN: A Unified Framework Based on Time-Frequency Domain Self-Operational Neural Network for Asthmatic Lung Sound Classification	Jul 10, 2023	Asthmatic Lung Sound ClassificationAudio Classification	CodeCode Available
Learning Rate Curriculum	May 18, 2022	Audio ClassificationQNLI	CodeCode Available
Learning Audio Concepts from Counterfactual Natural Language	Jan 10, 2024	Audio captioningAudio Classification	CodeCode Available
Rene: A Pre-trained Multi-modal Architecture for Auscultation of Respiratory Diseases	May 13, 2024	Audio ClassificationDiagnostic	CodeCode Available
Attention Bottlenecks for Multimodal Fusion	Jun 30, 2021	Action ClassificationAction Recognition	CodeCode Available
Investigating the Emergent Audio Classification Ability of ASR Foundation Models	Nov 15, 2023	Audio ClassificationDecoder	CodeCode Available
ILDNet: A Novel Deep Learning Framework for Interstitial Lung Disease Identification Using Respiratory Sounds	Aug 22, 2024	Audio ClassificationDiagnostic	CodeCode Available
Fully Few-shot Class-incremental Audio Classification Using Multi-level Embedding Extractor and Ridge Regression Classifier	Jun 23, 2025	Audio Classification	CodeCode Available
Unified Probabilistic Deep Continual Learning through Generative Replay and Open Set Recognition	May 28, 2019	Audio ClassificationBayesian Inference	CodeCode Available

Show:10 25 50

← PrevPage 7 of 8Next →

All datasets AudioSet ESC-50 ICBHI Respiratory Sound Database VGGSound SHD FSD50K Balanced Audio Set Speech Commands SSC BirdCLEF 2021 DCASE EPIC-KITCHENS-100

Benchmark Results

#	Model	Metric	Claimed	Verified	Status
1	OmniVec2	Test mAP	0.56	—	Unverified
2	OmniVec	Test mAP	0.55	—	Unverified
3	EquiAV	Test mAP	0.55	—	Unverified
4	MAViL (Audio-Visual, single)	Test mAP	0.53	—	Unverified
5	Audiovisual Masked Autoencoder (Audiovisual, Single)	Test mAP	0.52	—	Unverified
6	CAV-MAE (Audio-Visual)	Test mAP	0.51	—	Unverified
7	BEATs (Audio-only, Ensemble)	Test mAP	0.51	—	Unverified
8	UAVM (Audio + Video)	Test mAP	0.5	—	Unverified
9	SSLAM (Audio-Only, Single)	Test mAP	0.5	—	Unverified
10	mn40_as (Ensemble)	Test mAP	0.5	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	OmniVec2	Top-1 Accuracy	99.1	—	Unverified
2	InternVideo2	Top-1 Accuracy	98.6	—	Unverified
3	M2D2 AS+	Top-1 Accuracy	98.5	—	Unverified
4	OmniVec	Top-1 Accuracy	98.4	—	Unverified
5	BEATs	Top-1 Accuracy	98.1	—	Unverified
6	mn40_as	Top-1 Accuracy	97.45	—	Unverified
7	M2D-CLAP/0.7	Top-1 Accuracy	97.4	—	Unverified
8	DyMN-L	Top-1 Accuracy	97.4	—	Unverified
9	M2D-AS/0.7	Top-1 Accuracy	97.2	—	Unverified
10	HTS-AT	Top-1 Accuracy	97	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	ADD	ICBHI Score	65.53	—	Unverified
2	BEATs (PAFA)	ICBHI Score	64.84	—	Unverified
3	BTS	ICBHI Score	63.54	—	Unverified
4	BEATs (CE)	ICBHI Score	63.49	—	Unverified
5	M2D-X/0.7 (η=0.3)	ICBHI Score	63.29	—	Unverified
6	CycleGuardian	ICBHI Score	63.26	—	Unverified
7	M2D/0.7 (e=0.3)	ICBHI Score	62.73	—	Unverified
8	Audio-CLAP	ICBHI Score	62.56	—	Unverified
9	AST (Patch-Mix CL)	ICBHI Score	62.37	—	Unverified
10	AFT on Mixed-500	ICBHI Score	61.79	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	MBT (AV)	Top 5 Accuracy	85.6	—	Unverified
2	Mirasol3B	Top 1 Accuracy	69.8	—	Unverified
3	CA2ST(B/16)	Top 1 Accuracy	68.3	—	Unverified
4	ONE-PEACE (Audio-Visual)	Top 1 Accuracy	68.2	—	Unverified
5	CAVA(B/16)	Top 1 Accuracy	68.2	—	Unverified
6	EquiAV	Top 1 Accuracy	67.1	—	Unverified
7	MAViL	Top 1 Accuracy	67.1	—	Unverified
8	MMT (Audio-Visual)	Top 1 Accuracy	66.2	—	Unverified
9	CAV-MAE (Audio-Visual)	Top 1 Accuracy	65.9	—	Unverified
10	UAVM (Audio + Video)	Top 1 Accuracy	65.8	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	Event-SSM	Percentage correct	95.9	—	Unverified
2	SNN with Dilated Convolution with Learnable Spacings	Percentage correct	95.1	—	Unverified
3	SNN featuring learnable axonal delays with adaptively delay caps	Percentage correct	92.45	—	Unverified
4	CNN	Percentage correct	92.4	—	Unverified
5	SNN with spatio-temporal filters and attention	Percentage correct	92.4	—	Unverified
6	SNN with temporal-wise attention	Percentage correct	91.1	—	Unverified
7	SNN	Percentage correct	87	—	Unverified
8	Recurrent convolutional SNN	Percentage correct	83.5	—	Unverified
9	Recurrent SNN	Percentage correct	83.2	—	Unverified
10	Sparse Spiking Gradient Descent	Percentage correct	77.5	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	ONE-PEACE	mAP	69.7	—	Unverified
2	MN	mAP	65.6	—	Unverified
3	PaSST-S	mAP	65.55	—	Unverified
4	DyMN-L	mAP	65.5	—	Unverified
5	PaSST-N-S	mAP	64.2	—	Unverified
6	LHGNN	Mean AP	59	—	Unverified
7	PSLA	mAP	56.71	—	Unverified
8	MATPAC (SSL Model)	mAP	55.2	—	Unverified
9	Temporal Knowledge Distillation for On-device Audio Classification	mAP	54.8	—	Unverified
10	Large 6-Layer Transformer with Pooling	mAP	53.7	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	EquiAV	Mean AP	42.4	—	Unverified
2	SSLAM	Mean AP	40.9	—	Unverified
3	EAT	Mean AP	40.3	—	Unverified
4	BEATs	Mean AP	38.9	—	Unverified
5	Base (ours)	Mean AP	37.4	—	Unverified
6	SSAST-PATCH	Mean AP	31	—	Unverified
7	SSAST-FRAME	Mean AP	29.2	—	Unverified
8	Conformer	Mean AP	27.6	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	PDC	Accuracy	97.8	—	Unverified
2	ASM-RH	Accuracy	96.51	—	Unverified
3	EfficientLEAF	Accuracy	95.2	—	Unverified
4	melspect	Accuracy	95.1	—	Unverified
5	LEAF	Accuracy	95.1	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	Event-SSM	Accuracy	88.4	—	Unverified
2	SNN with Dilated Convolution with Learnable Spacings	Accuracy	80.69	—	Unverified
3	RadLIF	Accuracy	77.4	—	Unverified
4	SpikGRU	Accuracy	77	—	Unverified
5	Adaptive SRNN	Accuracy	74.2	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	EfficientLEAF (8s)	Accuracy	72.2	—	Unverified
2	EfficientLEAF	Accuracy	42.9	—	Unverified
3	LEAF	Accuracy	42.3	—	Unverified
4	melspect	Accuracy	39.9	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	CrissCross (AudioSet)	Top-1 Accuracy	97	—	Unverified
2	CrissCross (Kinetics-400)	Top-1 Accuracy	96	—	Unverified
3	XDC	Top-1 Accuracy	95	—	Unverified
4	CrissCross (Kinetics-Sound)	Top-1 Accuracy	93	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	Audiovisual Masked Autoencoder (Audiovisual, Single)	Top-1 Action	46	—	Unverified
2	Audiovisual Masked Autoencoder (Video-only, Single)	Top-1 Action	45.8	—	Unverified
3	Audiovisual Masked Autoencoder (Audio-only, Single)	Top-1 Action	19.7	—	Unverified
4	PlayItBackX3	Top-1 Action	15.9	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	M2D-AS/0.7	Mean AP	48.5	—	Unverified
2	LHGNN	Mean AP	46.6	—	Unverified
3	VAB-Encodec (Ours)	Mean AP	38.7	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	EfficientLEAF	Accuracy	60.2	—	Unverified
2	melspect	Accuracy	58.8	—	Unverified
3	LEAF	Accuracy	50.2	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	AUCO ResNet	AUC	0.82	—	Unverified
2	DenseNet 201	AUC	0.6	—	Unverified
3	Inception ResNet V2	AUC	0.6	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	Mirasol3B	Accuracy	78.2	—	Unverified
2	CA2ST(B/16)	Accuracy	61	—	Unverified
3	CAVA(B/16)	Accuracy	60.3	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	ASM-RH-A	Top-1 Accuracy	75.4	—	Unverified
2	ERANN-0-4	Top-1 Accuracy	74.8	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	Qwen-Audio	Accuracy	92.89	—	Unverified
2	VocalSound Baseline	Accuracy	90.5	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	XGBoost (330)	Accuracy (10-fold)	99.3	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	animal2vec	AP	0.91	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	Audio	Accuracy (%)	64.5	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	CDIL	FruitFlies	97.09	—	Unverified