Audio Classification

Audio Classification is a machine learning task that involves identifying and tagging audio signals into different classes or categories. The goal of audio classification is to enable machines to automatically recognize and distinguish between different types of audio, such as music, speech, and environmental sounds.

Papers

Recently Added Most Hyped Most Active Needs Verification Most Verified

Showing 101–150 of 361 papers

Title	Date	Tasks	Status	Hype
LEAF: A Learnable Frontend for Audio Classification	Jan 21, 2021	Audio ClassificationClassification	CodeCode Available	1
Piano Skills Assessment	Jan 13, 2021	Action Quality AssessmentAudio Classification	CodeCode Available	1
RespireNet: A Deep Neural Network for Accurately Detecting Abnormal Lung Sounds in Limited Data Setting	Oct 31, 2020	Audio Classification	CodeCode Available	1
Urban Sound Classification : striving towards a fair comparison	Oct 22, 2020	Audio ClassificationAudio Tagging	CodeCode Available	1
CRNNs for Urban Sound Tagging with spatiotemporal context	Aug 24, 2020	Audio ClassificationAudio Tagging	CodeCode Available	1
Ultra-light deep MIR by trimming lottery tickets	Jul 31, 2020	Audio ClassificationCPU	CodeCode Available	1
Rethinking CNN Models for Audio Classification	Jul 22, 2020	Audio ClassificationClassification	CodeCode Available	1
AdamP: Slowing Down the Slowdown for Momentum Optimizers on Scale-invariant Weights	Jun 15, 2020	Audio ClassificationImage Classification	CodeCode Available	1
Generalised Interpretable Shapelets for Irregular Time Series	May 28, 2020	Audio ClassificationIrregular Time Series	CodeCode Available	1
Audio-Visual Instance Discrimination with Cross-Modal Agreement	Apr 27, 2020	Action RecognitionAudio Classification	CodeCode Available	1
On Compositions of Transformations in Contrastive Self-Supervised Learning	Mar 9, 2020	Action RecognitionAudio Classification	CodeCode Available	1
Π-nets: Deep Polynomial Neural Networks	Mar 8, 2020	Audio ClassificationGraph Representation Learning	CodeCode Available	1
Speech emotion recognition with deep convolutional neural networks	Feb 15, 2020	Audio ClassificationEmotion Recognition	CodeCode Available	1
Learning with Out-of-Distribution Data for Audio Classification	Feb 11, 2020	Audio ClassificationClassification	CodeCode Available	1
AudioMNIST: Exploring Explainable Artificial Intelligence for Audio Analysis on a Simple Benchmark	Jul 9, 2018	Audio ClassificationDecision Making	CodeCode Available	1
CNN Architectures for Large-Scale Audio Classification	Sep 29, 2016	Audio ClassificationEvent Detection	CodeCode Available	1
Task-Specific Audio Coding for Machines: Machine-Learned Latent Features Are Codes for That Machine	Jul 17, 2025	Audio ClassificationAutomatic Speech Recognition	—Unverified	0
MUPAX: Multidimensional Problem Agnostic eXplainable AI	Jul 17, 2025	Anatomical Landmark DetectionAudio Classification	—Unverified	0
Neuromorphic Wireless Split Computing with Resonate-and-Fire Neurons	Jun 24, 2025	Audio Classification	—Unverified	0
Fully Few-shot Class-incremental Audio Classification Using Multi-level Embedding Extractor and Ridge Regression Classifier	Jun 23, 2025	Audio Classification	CodeCode Available	0
Spectrotemporal Modulation: Efficient and Interpretable Feature Representation for Classifying Speech, Music, and Environmental Sounds	May 29, 2025	Audio Classification	CodeCode Available	0
Patient-Aware Feature Alignment for Robust Lung Sound Classification:Cohesion-Separation and Global Alignment Losses	May 28, 2025	Audio ClassificationLung Sound Classification	CodeCode Available	0
4,500 Seconds: Small Data Training Approaches for Deep UAV Audio Classification	May 21, 2025	Audio Classificationparameter-efficient fine-tuning	CodeCode Available	0
15,500 Seconds: Lean UAV Classification Leveraging PEFT and Pre-Trained Networks	May 21, 2025	Audio ClassificationData Augmentation	CodeCode Available	0
Large Language Models Implicitly Learn to See and Hear Just By Reading	May 20, 2025	Audio Classificationimage-classification	—Unverified	0
A Training Framework for Optimal and Stable Training of Polynomial Neural Networks	May 16, 2025	Audio ClassificationHomomorphic Encryption for Deep Learning	CodeCode Available	0
Can Masked Autoencoders Also Listen to Birds?	Apr 17, 2025	Audio ClassificationMulti-Label Classification	—Unverified	0
Progressive Rock Music Classification	Apr 15, 2025	Audio ClassificationClassification	—Unverified	0
Token Pruning in Audio Transformers: Optimizing Performance and Decoding Patch Importance	Apr 2, 2025	Audio Classification	CodeCode Available	0
CA^2ST: Cross-Attention in Audio, Space, and Time for Holistic Video Recognition	Mar 30, 2025	Action ClassificationAction Recognition	—Unverified	0
M2D2: Exploring General-purpose Audio-Language Representations Beyond CLAP	Mar 28, 2025	Audio captioningAudio Classification	—Unverified	0
Symbolic Audio Classification via Modal Decision Tree Learning	Mar 21, 2025	Audio ClassificationClassification	—Unverified	0
Fundamental Survey on Neuromorphic Based Audio Classification	Feb 20, 2025	Audio ClassificationClassification	—Unverified	0
LHGNN: Local-Higher Order Graph Neural Networks For Audio Classification and Tagging	Jan 7, 2025	Audio ClassificationGraph Neural Network	—Unverified	0
TSPE: Task-Specific Prompt Ensemble for Improved Zero-Shot Audio Classification	Dec 31, 2024	Audio ClassificationClassification	—Unverified	0
Domain-Incremental Learning for Audio Classification	Dec 23, 2024	Audio ClassificationClassification	—Unverified	0
Continual Low-Rank Scaled Dot-product Attention	Dec 4, 2024	Action DetectionAudio Classification	—Unverified	0
Raw Audio Classification with Cosine Convolutional Neural Network (CosCovNN)	Nov 30, 2024	Audio Classification	—Unverified	0
STREAM: A Universal State-Space Model for Sparse Geometric Data	Nov 19, 2024	Audio ClassificationEvent-based vision	—Unverified	0
Classification of Adventitious Sounds Combining Cochleogram and Vision Transformers	Nov 8, 2024	Audio ClassificationClassification	—Unverified	0
Performance Analysis of Hybrid Quantum-Classical Convolutional Neural Networks for Audio Classification	Nov 4, 2024	Audio ClassificationQuantum Machine Learning	CodeCode Available	0
A Novel Score-CAM based Denoiser for Spectrographic Signature Extraction without Ground Truth	Oct 28, 2024	Audio ClassificationDenoising	—Unverified	0
Audio Classification of Low Feature Spectrograms Utilizing Convolutional Neural Networks	Oct 28, 2024	Audio ClassificationClassification	—Unverified	0
Beyond Speech and More: Investigating the Emergent Ability of Speech Foundation Models for Classifying Physiological Time-Series Signals	Oct 16, 2024	Audio ClassificationTime Series	—Unverified	0
Spectral and Rhythm Features for Audio Classification with Deep Convolutional Neural Networks	Oct 9, 2024	Audio ClassificationRhythm	—Unverified	0
A Multimodal Framework for Deepfake Detection	Oct 4, 2024	Audio ClassificationDeepFake Detection	—Unverified	0
Episodic fine-tuning prototypical networks for optimization-based few-shot learning: Application to audio classification	Oct 4, 2024	Audio ClassificationFew-Shot Audio Classification	CodeCode Available	0
DeFT-Mamba: Universal Multichannel Sound Separation and Polyphonic Audio Classification	Sep 19, 2024	Audio ClassificationClassification	—Unverified	0
A sound description: Exploring prompt templates and class descriptions to enhance zero-shot audio classification	Sep 19, 2024	Audio ClassificationClassification	—Unverified	0
A Framework for Synthetic Audio Conversations Generation using Large Language Models	Sep 2, 2024	Audio ClassificationAudio Tagging	—Unverified	0

Show:10 25 50

← PrevPage 3 of 8Next →

All datasets AudioSet ESC-50 ICBHI Respiratory Sound Database VGGSound SHD FSD50K Balanced Audio Set Speech Commands SSC BirdCLEF 2021 DCASE EPIC-KITCHENS-100

Benchmark Results

#	Model	Metric	Claimed	Verified	Status
1	OmniVec2	Test mAP	0.56	—	Unverified
2	OmniVec	Test mAP	0.55	—	Unverified
3	EquiAV	Test mAP	0.55	—	Unverified
4	MAViL (Audio-Visual, single)	Test mAP	0.53	—	Unverified
5	Audiovisual Masked Autoencoder (Audiovisual, Single)	Test mAP	0.52	—	Unverified
6	CAV-MAE (Audio-Visual)	Test mAP	0.51	—	Unverified
7	BEATs (Audio-only, Ensemble)	Test mAP	0.51	—	Unverified
8	UAVM (Audio + Video)	Test mAP	0.5	—	Unverified
9	SSLAM (Audio-Only, Single)	Test mAP	0.5	—	Unverified
10	mn40_as (Ensemble)	Test mAP	0.5	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	OmniVec2	Top-1 Accuracy	99.1	—	Unverified
2	InternVideo2	Top-1 Accuracy	98.6	—	Unverified
3	M2D2 AS+	Top-1 Accuracy	98.5	—	Unverified
4	OmniVec	Top-1 Accuracy	98.4	—	Unverified
5	BEATs	Top-1 Accuracy	98.1	—	Unverified
6	mn40_as	Top-1 Accuracy	97.45	—	Unverified
7	M2D-CLAP/0.7	Top-1 Accuracy	97.4	—	Unverified
8	DyMN-L	Top-1 Accuracy	97.4	—	Unverified
9	M2D-AS/0.7	Top-1 Accuracy	97.2	—	Unverified
10	HTS-AT	Top-1 Accuracy	97	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	ADD	ICBHI Score	65.53	—	Unverified
2	BEATs (PAFA)	ICBHI Score	64.84	—	Unverified
3	BTS	ICBHI Score	63.54	—	Unverified
4	BEATs (CE)	ICBHI Score	63.49	—	Unverified
5	M2D-X/0.7 (η=0.3)	ICBHI Score	63.29	—	Unverified
6	CycleGuardian	ICBHI Score	63.26	—	Unverified
7	M2D/0.7 (e=0.3)	ICBHI Score	62.73	—	Unverified
8	Audio-CLAP	ICBHI Score	62.56	—	Unverified
9	AST (Patch-Mix CL)	ICBHI Score	62.37	—	Unverified
10	AFT on Mixed-500	ICBHI Score	61.79	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	MBT (AV)	Top 5 Accuracy	85.6	—	Unverified
2	Mirasol3B	Top 1 Accuracy	69.8	—	Unverified
3	CA2ST(B/16)	Top 1 Accuracy	68.3	—	Unverified
4	ONE-PEACE (Audio-Visual)	Top 1 Accuracy	68.2	—	Unverified
5	CAVA(B/16)	Top 1 Accuracy	68.2	—	Unverified
6	EquiAV	Top 1 Accuracy	67.1	—	Unverified
7	MAViL	Top 1 Accuracy	67.1	—	Unverified
8	MMT (Audio-Visual)	Top 1 Accuracy	66.2	—	Unverified
9	CAV-MAE (Audio-Visual)	Top 1 Accuracy	65.9	—	Unverified
10	UAVM (Audio + Video)	Top 1 Accuracy	65.8	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	Event-SSM	Percentage correct	95.9	—	Unverified
2	SNN with Dilated Convolution with Learnable Spacings	Percentage correct	95.1	—	Unverified
3	SNN featuring learnable axonal delays with adaptively delay caps	Percentage correct	92.45	—	Unverified
4	CNN	Percentage correct	92.4	—	Unverified
5	SNN with spatio-temporal filters and attention	Percentage correct	92.4	—	Unverified
6	SNN with temporal-wise attention	Percentage correct	91.1	—	Unverified
7	SNN	Percentage correct	87	—	Unverified
8	Recurrent convolutional SNN	Percentage correct	83.5	—	Unverified
9	Recurrent SNN	Percentage correct	83.2	—	Unverified
10	Sparse Spiking Gradient Descent	Percentage correct	77.5	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	ONE-PEACE	mAP	69.7	—	Unverified
2	MN	mAP	65.6	—	Unverified
3	PaSST-S	mAP	65.55	—	Unverified
4	DyMN-L	mAP	65.5	—	Unverified
5	PaSST-N-S	mAP	64.2	—	Unverified
6	LHGNN	Mean AP	59	—	Unverified
7	PSLA	mAP	56.71	—	Unverified
8	MATPAC (SSL Model)	mAP	55.2	—	Unverified
9	Temporal Knowledge Distillation for On-device Audio Classification	mAP	54.8	—	Unverified
10	Large 6-Layer Transformer with Pooling	mAP	53.7	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	EquiAV	Mean AP	42.4	—	Unverified
2	SSLAM	Mean AP	40.9	—	Unverified
3	EAT	Mean AP	40.3	—	Unverified
4	BEATs	Mean AP	38.9	—	Unverified
5	Base (ours)	Mean AP	37.4	—	Unverified
6	SSAST-PATCH	Mean AP	31	—	Unverified
7	SSAST-FRAME	Mean AP	29.2	—	Unverified
8	Conformer	Mean AP	27.6	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	PDC	Accuracy	97.8	—	Unverified
2	ASM-RH	Accuracy	96.51	—	Unverified
3	EfficientLEAF	Accuracy	95.2	—	Unverified
4	melspect	Accuracy	95.1	—	Unverified
5	LEAF	Accuracy	95.1	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	Event-SSM	Accuracy	88.4	—	Unverified
2	SNN with Dilated Convolution with Learnable Spacings	Accuracy	80.69	—	Unverified
3	RadLIF	Accuracy	77.4	—	Unverified
4	SpikGRU	Accuracy	77	—	Unverified
5	Adaptive SRNN	Accuracy	74.2	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	EfficientLEAF (8s)	Accuracy	72.2	—	Unverified
2	EfficientLEAF	Accuracy	42.9	—	Unverified
3	LEAF	Accuracy	42.3	—	Unverified
4	melspect	Accuracy	39.9	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	CrissCross (AudioSet)	Top-1 Accuracy	97	—	Unverified
2	CrissCross (Kinetics-400)	Top-1 Accuracy	96	—	Unverified
3	XDC	Top-1 Accuracy	95	—	Unverified
4	CrissCross (Kinetics-Sound)	Top-1 Accuracy	93	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	Audiovisual Masked Autoencoder (Audiovisual, Single)	Top-1 Action	46	—	Unverified
2	Audiovisual Masked Autoencoder (Video-only, Single)	Top-1 Action	45.8	—	Unverified
3	Audiovisual Masked Autoencoder (Audio-only, Single)	Top-1 Action	19.7	—	Unverified
4	PlayItBackX3	Top-1 Action	15.9	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	M2D-AS/0.7	Mean AP	48.5	—	Unverified
2	LHGNN	Mean AP	46.6	—	Unverified
3	VAB-Encodec (Ours)	Mean AP	38.7	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	EfficientLEAF	Accuracy	60.2	—	Unverified
2	melspect	Accuracy	58.8	—	Unverified
3	LEAF	Accuracy	50.2	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	AUCO ResNet	AUC	0.82	—	Unverified
2	DenseNet 201	AUC	0.6	—	Unverified
3	Inception ResNet V2	AUC	0.6	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	Mirasol3B	Accuracy	78.2	—	Unverified
2	CA2ST(B/16)	Accuracy	61	—	Unverified
3	CAVA(B/16)	Accuracy	60.3	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	ASM-RH-A	Top-1 Accuracy	75.4	—	Unverified
2	ERANN-0-4	Top-1 Accuracy	74.8	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	Qwen-Audio	Accuracy	92.89	—	Unverified
2	VocalSound Baseline	Accuracy	90.5	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	XGBoost (330)	Accuracy (10-fold)	99.3	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	animal2vec	AP	0.91	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	Audio	Accuracy (%)	64.5	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	CDIL	FruitFlies	97.09	—	Unverified