Audio Classification

Audio Classification is a machine learning task that involves identifying and tagging audio signals into different classes or categories. The goal of audio classification is to enable machines to automatically recognize and distinguish between different types of audio, such as music, speech, and environmental sounds.

Papers

Recently Added Most Hyped Most Active Needs Verification Most Verified

Showing 151–200 of 361 papers

Title	Date	Tasks	Status	Score
Performance Analysis of Hybrid Quantum-Classical Convolutional Neural Networks for Audio Classification	Nov 4, 2024	Audio ClassificationQuantum Machine Learning	CodeCode Available	5
Masked Conditional Neural Networks for Audio Classification	Mar 6, 2018	Audio ClassificationClassification	CodeCode Available	5
ILDNet: A Novel Deep Learning Framework for Interstitial Lung Disease Identification Using Respiratory Sounds	Aug 22, 2024	Audio ClassificationDiagnostic	CodeCode Available	5
Play It Back: Iterative Attention for Audio Recognition	Oct 20, 2022	Audio Classification	CodeCode Available	5
Augmenting Deep Classifiers with Polynomial Neural Networks	Apr 16, 2021	Audio ClassificationGeneral Classification	CodeCode Available	5
Unified Probabilistic Deep Continual Learning through Generative Replay and Open Set Recognition	May 28, 2019	Audio ClassificationBayesian Inference	CodeCode Available	5
Look, Listen and Learn	May 23, 2017	Audio ClassificationGeneral Classification	CodeCode Available	5
MAP-SNN: Mapping Spike Activities with Multiplicity, Adaptability, and Plasticity into Bio-Plausible Spiking Neural Networks	Apr 21, 2022	Audio ClassificationDiversity	CodeCode Available	5
M2D-CLAP: Masked Modeling Duo Meets CLAP for Learning General-purpose Audio-Language Representation	Jun 4, 2024	Audio ClassificationLinear evaluation	CodeCode Available	5
Pruning vs XNOR-Net: A Comprehensive Study of Deep Learning for Audio Classification on Edge-devices	Aug 13, 2021	Audio ClassificationClassification	CodeCode Available	5
Convolutional RNN: an Enhanced Model for Extracting Features from Sequential Data	Feb 18, 2016	Audio Classification	CodeCode Available	5
M2D2: Exploring General-purpose Audio-Language Representations Beyond CLAP	Mar 28, 2025	Audio captioningAudio Classification	CodeCode Available	5
Rank-based loss for learning hierarchical representations	Oct 11, 2021	Audio ClassificationTriplet	CodeCode Available	5
Universal Adversarial Audio Perturbations	Aug 8, 2019	Audio Classification	CodeCode Available	5
EDAC: Efficient Deployment of Audio Classification Models For COVID-19 Detection	Sep 11, 2023	Audio ClassificationNetwork Pruning	CodeCode Available	5
S-TLLR: STDP-inspired Temporal Local Learning Rule for Spiking Neural Networks	Jun 27, 2023	Audio ClassificationEvent-based Optical Flow	CodeCode Available	5
Fully Few-shot Class-incremental Audio Classification Using Expandable Dual-embedding Extractor	Jun 12, 2024	Audio Classification	CodeCode Available	5
Learning Audio Concepts from Counterfactual Natural Language	Jan 10, 2024	Audio captioningAudio Classification	CodeCode Available	5
Study of positional encoding approaches for Audio Spectrogram Transformers	Oct 13, 2021	Audio Classification	CodeCode Available	5
Rene: A Pre-trained Multi-modal Architecture for Auscultation of Respiratory Diseases	May 13, 2024	Audio ClassificationDiagnostic	CodeCode Available	5
LungBRN: A Smart Digital Stethoscope for Detecting Respiratory Disease Using bi-ResNet Deep Learning Algorithm	Dec 5, 2019	Audio ClassificationDiagnostic	CodeCode Available	5
Fully Few-shot Class-incremental Audio Classification Using Multi-level Embedding Extractor and Ridge Regression Classifier	Jun 23, 2025	Audio Classification	CodeCode Available	5
Audiogmenter: a MATLAB Toolbox for Audio Data Augmentation	Dec 11, 2019	Audio ClassificationData Augmentation	CodeCode Available	5
Bytes Are All You Need: Transformers Operating Directly On File Bytes	May 31, 2023	AllAudio Classification	CodeCode Available	5
A Deep Bag-of-Features Model for Music Auto-Tagging	Aug 20, 2015	Audio ClassificationInformation Retrieval	CodeCode Available	5
LungAttn: advanced lung sound classification using attention mechanism with dual TQWT and triple STFT spectrogram	Oct 29, 2021	Audio ClassificationLung Sound Classification	CodeCode Available	5
Exploring Meta Information for Audio-based Zero-shot Bird Classification	Sep 15, 2023	Audio ClassificationZero-shot Audio Classification	CodeCode Available	5
Face: Fast, Accurate and Context-Aware Audio Annotation and Classification	Mar 7, 2023	Active LearningAudio Classification	CodeCode Available	5
Compact Global Descriptor for Neural Networks	Jul 23, 2019	Audio ClassificationDeep Attention	CodeCode Available	5
Self-Supervised Learning by Cross-Modal Audio-Video Clustering	Nov 28, 2019	Action RecognitionAudio Classification	CodeCode Available	5
Self-Supervised MultiModal Versatile Networks	Jun 29, 2020	Action Recognition In VideosAudio Classification	CodeCode Available	5
FastAST: Accelerating Audio Spectrogram Transformer via Token Merging and Cross-Model Knowledge Distillation	Jun 11, 2024	Audio ClassificationKnowledge Distillation	CodeCode Available	5
4,500 Seconds: Small Data Training Approaches for Deep UAV Audio Classification	May 21, 2025	Audio Classificationparameter-efficient fine-tuning	CodeCode Available	5
Text-based classification of interviews for mental health -- juxtaposing the state of the art	Jul 29, 2020	Audio ClassificationClassification	CodeCode Available	5
Investigating the Emergent Audio Classification Ability of ASR Foundation Models	Nov 15, 2023	Audio ClassificationDecoder	CodeCode Available	5
Token Pruning in Audio Transformers: Optimizing Performance and Decoding Patch Importance	Apr 2, 2025	Audio Classification	CodeCode Available	5
Zero-Shot Federated Learning with New Classes for Audio Classification	Jun 18, 2021	Audio ClassificationClassification	—Unverified	0
Accent Recognition with Hybrid Phonetic Features	May 5, 2021	Audio ClassificationAutomatic Speech Recognition	—Unverified	0
Accurate and efficient time-domain classification with adaptive spiking recurrent neural networks	Mar 12, 2021	Audio Classificationdomain classification	—Unverified	0
AclNet: efficient end-to-end audio classification CNN	Nov 16, 2018	Audio ClassificationClassification	—Unverified	0
Content Adaptive Front End For Audio Classification	Mar 18, 2023	Audio ClassificationAudio Signal Processing	—Unverified	0
Adapting Language-Audio Models as Few-Shot Audio Learners	May 28, 2023	Audio ClassificationClassification	—Unverified	0
Adaptive Axonal Delays in feedforward spiking neural networks for accurate spoken word recognition	Feb 16, 2023	Audio ClassificationAutomatic Speech Recognition	—Unverified	0
Adaptive re-calibration of channel-wise features for Adversarial Audio Classification	Oct 21, 2022	Audio ClassificationFace Swapping	—Unverified	0
Adaptive Weighting Scheme for Automatic Time-Series Data Augmentation	Feb 16, 2021	Audio ClassificationData Augmentation	—Unverified	0
A Deep Neural Network for Audio Classification with a Classifier Attention Mechanism	Jun 14, 2020	Audio ClassificationGeneral Classification	—Unverified	0
A DOMAIN TRANSFER BASED DATA AUGMENTATION METHOD FOR AUTOMATED RESPIRATORY CLASSIFICATION	Apr 27, 2022	Audio ClassificationData Augmentation	—Unverified	0
Advancing Continual Learning for Robust Deepfake Audio Classification	Jul 14, 2024	Audio ClassificationClassification	—Unverified	0
AFEN: Respiratory Disease Classification using Ensemble Learning	May 8, 2024	Audio ClassificationClassification	—Unverified	0
A FRAMEWORK FOR ROBUSTNESS CERTIFICATION OF SMOOTHED CLASSIFIERS USING F-DIVERGENCES	May 1, 2020	Audio ClassificationBIG-bench Machine Learning	—Unverified	0

Show:10 25 50

← PrevPage 4 of 8Next →

All datasets AudioSet ESC-50 ICBHI Respiratory Sound Database VGGSound SHD FSD50K Balanced Audio Set Speech Commands SSC BirdCLEF 2021 DCASE EPIC-KITCHENS-100

Benchmark Results

#	Model	Metric	Claimed	Verified	Status
1	OmniVec2	Test mAP	0.56	—	Unverified
2	OmniVec	Test mAP	0.55	—	Unverified
3	EquiAV	Test mAP	0.55	—	Unverified
4	MAViL (Audio-Visual, single)	Test mAP	0.53	—	Unverified
5	Audiovisual Masked Autoencoder (Audiovisual, Single)	Test mAP	0.52	—	Unverified
6	CAV-MAE (Audio-Visual)	Test mAP	0.51	—	Unverified
7	BEATs (Audio-only, Ensemble)	Test mAP	0.51	—	Unverified
8	UAVM (Audio + Video)	Test mAP	0.5	—	Unverified
9	SSLAM (Audio-Only, Single)	Test mAP	0.5	—	Unverified
10	mn40_as (Ensemble)	Test mAP	0.5	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	OmniVec2	Top-1 Accuracy	99.1	—	Unverified
2	InternVideo2	Top-1 Accuracy	98.6	—	Unverified
3	M2D2 AS+	Top-1 Accuracy	98.5	—	Unverified
4	OmniVec	Top-1 Accuracy	98.4	—	Unverified
5	BEATs	Top-1 Accuracy	98.1	—	Unverified
6	mn40_as	Top-1 Accuracy	97.45	—	Unverified
7	M2D-CLAP/0.7	Top-1 Accuracy	97.4	—	Unverified
8	DyMN-L	Top-1 Accuracy	97.4	—	Unverified
9	M2D-AS/0.7	Top-1 Accuracy	97.2	—	Unverified
10	HTS-AT	Top-1 Accuracy	97	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	ADD	ICBHI Score	65.53	—	Unverified
2	BEATs (PAFA)	ICBHI Score	64.84	—	Unverified
3	BTS	ICBHI Score	63.54	—	Unverified
4	BEATs (CE)	ICBHI Score	63.49	—	Unverified
5	M2D-X/0.7 (η=0.3)	ICBHI Score	63.29	—	Unverified
6	CycleGuardian	ICBHI Score	63.26	—	Unverified
7	M2D/0.7 (e=0.3)	ICBHI Score	62.73	—	Unverified
8	Audio-CLAP	ICBHI Score	62.56	—	Unverified
9	AST (Patch-Mix CL)	ICBHI Score	62.37	—	Unverified
10	AFT on Mixed-500	ICBHI Score	61.79	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	MBT (AV)	Top 5 Accuracy	85.6	—	Unverified
2	Mirasol3B	Top 1 Accuracy	69.8	—	Unverified
3	CA2ST(B/16)	Top 1 Accuracy	68.3	—	Unverified
4	ONE-PEACE (Audio-Visual)	Top 1 Accuracy	68.2	—	Unverified
5	CAVA(B/16)	Top 1 Accuracy	68.2	—	Unverified
6	EquiAV	Top 1 Accuracy	67.1	—	Unverified
7	MAViL	Top 1 Accuracy	67.1	—	Unverified
8	MMT (Audio-Visual)	Top 1 Accuracy	66.2	—	Unverified
9	CAV-MAE (Audio-Visual)	Top 1 Accuracy	65.9	—	Unverified
10	UAVM (Audio + Video)	Top 1 Accuracy	65.8	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	Event-SSM	Percentage correct	95.9	—	Unverified
2	SNN with Dilated Convolution with Learnable Spacings	Percentage correct	95.1	—	Unverified
3	SNN featuring learnable axonal delays with adaptively delay caps	Percentage correct	92.45	—	Unverified
4	CNN	Percentage correct	92.4	—	Unverified
5	SNN with spatio-temporal filters and attention	Percentage correct	92.4	—	Unverified
6	SNN with temporal-wise attention	Percentage correct	91.1	—	Unverified
7	SNN	Percentage correct	87	—	Unverified
8	Recurrent convolutional SNN	Percentage correct	83.5	—	Unverified
9	Recurrent SNN	Percentage correct	83.2	—	Unverified
10	Sparse Spiking Gradient Descent	Percentage correct	77.5	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	ONE-PEACE	mAP	69.7	—	Unverified
2	MN	mAP	65.6	—	Unverified
3	PaSST-S	mAP	65.55	—	Unverified
4	DyMN-L	mAP	65.5	—	Unverified
5	PaSST-N-S	mAP	64.2	—	Unverified
6	LHGNN	Mean AP	59	—	Unverified
7	PSLA	mAP	56.71	—	Unverified
8	MATPAC (SSL Model)	mAP	55.2	—	Unverified
9	Temporal Knowledge Distillation for On-device Audio Classification	mAP	54.8	—	Unverified
10	Large 6-Layer Transformer with Pooling	mAP	53.7	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	EquiAV	Mean AP	42.4	—	Unverified
2	SSLAM	Mean AP	40.9	—	Unverified
3	EAT	Mean AP	40.3	—	Unverified
4	BEATs	Mean AP	38.9	—	Unverified
5	Base (ours)	Mean AP	37.4	—	Unverified
6	SSAST-PATCH	Mean AP	31	—	Unverified
7	SSAST-FRAME	Mean AP	29.2	—	Unverified
8	Conformer	Mean AP	27.6	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	PDC	Accuracy	97.8	—	Unverified
2	ASM-RH	Accuracy	96.51	—	Unverified
3	EfficientLEAF	Accuracy	95.2	—	Unverified
4	melspect	Accuracy	95.1	—	Unverified
5	LEAF	Accuracy	95.1	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	Event-SSM	Accuracy	88.4	—	Unverified
2	SNN with Dilated Convolution with Learnable Spacings	Accuracy	80.69	—	Unverified
3	RadLIF	Accuracy	77.4	—	Unverified
4	SpikGRU	Accuracy	77	—	Unverified
5	Adaptive SRNN	Accuracy	74.2	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	EfficientLEAF (8s)	Accuracy	72.2	—	Unverified
2	EfficientLEAF	Accuracy	42.9	—	Unverified
3	LEAF	Accuracy	42.3	—	Unverified
4	melspect	Accuracy	39.9	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	CrissCross (AudioSet)	Top-1 Accuracy	97	—	Unverified
2	CrissCross (Kinetics-400)	Top-1 Accuracy	96	—	Unverified
3	XDC	Top-1 Accuracy	95	—	Unverified
4	CrissCross (Kinetics-Sound)	Top-1 Accuracy	93	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	Audiovisual Masked Autoencoder (Audiovisual, Single)	Top-1 Action	46	—	Unverified
2	Audiovisual Masked Autoencoder (Video-only, Single)	Top-1 Action	45.8	—	Unverified
3	Audiovisual Masked Autoencoder (Audio-only, Single)	Top-1 Action	19.7	—	Unverified
4	PlayItBackX3	Top-1 Action	15.9	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	M2D-AS/0.7	Mean AP	48.5	—	Unverified
2	LHGNN	Mean AP	46.6	—	Unverified
3	VAB-Encodec (Ours)	Mean AP	38.7	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	EfficientLEAF	Accuracy	60.2	—	Unverified
2	melspect	Accuracy	58.8	—	Unverified
3	LEAF	Accuracy	50.2	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	AUCO ResNet	AUC	0.82	—	Unverified
2	DenseNet 201	AUC	0.6	—	Unverified
3	Inception ResNet V2	AUC	0.6	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	Mirasol3B	Accuracy	78.2	—	Unverified
2	CA2ST(B/16)	Accuracy	61	—	Unverified
3	CAVA(B/16)	Accuracy	60.3	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	ASM-RH-A	Top-1 Accuracy	75.4	—	Unverified
2	ERANN-0-4	Top-1 Accuracy	74.8	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	Qwen-Audio	Accuracy	92.89	—	Unverified
2	VocalSound Baseline	Accuracy	90.5	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	XGBoost (330)	Accuracy (10-fold)	99.3	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	animal2vec	AP	0.91	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	Audio	Accuracy (%)	64.5	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	CDIL	FruitFlies	97.09	—	Unverified