Audio Classification

Audio Classification is a machine learning task that involves identifying and tagging audio signals into different classes or categories. The goal of audio classification is to enable machines to automatically recognize and distinguish between different types of audio, such as music, speech, and environmental sounds.

Papers

Recently Added Most Hyped Most Active Needs Verification Most Verified

Showing 51–100 of 361 papers

Title	Date	Tasks	Status	Hype
Advancing Continual Learning for Robust Deepfake Audio Classification	Jul 14, 2024	Audio ClassificationClassification	—Unverified	0
ElasticAST: An Audio Spectrogram Transformer for All Length and Resolutions	Jul 11, 2024	AllAudio Classification	CodeCode Available	1
DASS: Distilled Audio State Space Models Are Stronger and More Duration-Scalable Learners	Jul 4, 2024	Audio ClassificationAudio Tagging	CodeCode Available	1
Exploiting Foundation Models and Speech Enhancement for Parkinson's Disease Detection from Speech in Real-World Operative Conditions	Jun 23, 2024	Audio ClassificationParkinson Detection from Speech	CodeCode Available	1
Fully Few-shot Class-incremental Audio Classification Using Expandable Dual-embedding Extractor	Jun 12, 2024	Audio Classification	CodeCode Available	0
FastAST: Accelerating Audio Spectrogram Transformer via Token Merging and Cross-Model Knowledge Distillation	Jun 11, 2024	Audio ClassificationKnowledge Distillation	CodeCode Available	0
BTS: Bridging Text and Sound Modalities for Metadata-Aided Respiratory Sound Classification	Jun 10, 2024	Audio ClassificationSound Classification	CodeCode Available	1
Contrastive Learning from Synthetic Audio Doppelgängers	Jun 9, 2024	Audio ClassificationContrastive Learning	—Unverified	0
Audio Mamba: Bidirectional State Space Model for Audio Representation Learning	Jun 5, 2024	Audio ClassificationClassification	CodeCode Available	2
M2D-CLAP: Masked Modeling Duo Meets CLAP for Learning General-purpose Audio-Language Representation	Jun 4, 2024	Audio ClassificationLinear evaluation	—Unverified	0
animal2vec and MeerKAT: A self-supervised transformer for rare-event raw audio input and a large-scale reference dataset for bioacoustics	Jun 3, 2024	Audio ClassificationBenchmarking	CodeCode Available	1
SSAMBA: Self-Supervised Audio Representation Learning with Mamba State Space Model	May 20, 2024	Audio ClassificationGPU	CodeCode Available	2
Attention Feature Fusion Network via Knowledge Propagation for Automated Respiratory Sound Classification	May 16, 2024	Audio ClassificationComputed Tomography (CT)	—Unverified	0
Investigating Design Choices in Joint-Embedding Predictive Architectures for General Audio Representation Learning	May 14, 2024	Audio ClassificationRepresentation Learning	CodeCode Available	1
On-device Online Learning and Semantic Management of TinyML Systems	May 13, 2024	Audio Classificationimage-classification	CodeCode Available	0
Rene: A Pre-trained Multi-modal Architecture for Auscultation of Respiratory Diseases	May 13, 2024	Audio ClassificationDiagnostic	CodeCode Available	0
AFEN: Respiratory Disease Classification using Ensemble Learning	May 8, 2024	Audio ClassificationClassification	—Unverified	0
Benchmarking Representations for Speech, Music, and Acoustic Events	May 2, 2024	Audio ClassificationBenchmarking	CodeCode Available	2
Scalable Event-by-event Processing of Neuromorphic Sensory Signals With Deep State-Space Models	Apr 29, 2024	Audio ClassificationGesture Recognition	CodeCode Available	1
Leveraging tropical reef, bird and unrelated sounds for superior transfer learning in marine bioacoustics	Apr 25, 2024	Audio ClassificationTransfer Learning	CodeCode Available	3
AudioProtoPNet: An interpretable deep learning model for bird sound classification	Apr 16, 2024	Audio ClassificationClassification	—Unverified	0
MAX-AST: COMBINING CONVOLUTION, LOCAL AND GLOBAL SELF-ATTENTIONS FOR AUDIO EVENT CLASSIFICATION	Apr 14, 2024	Audio Classification	CodeCode Available	1
nEMO: Dataset of Emotional Speech in Polish	Apr 9, 2024	Audio ClassificationEmotion Recognition	CodeCode Available	0
Masked Modeling Duo: Towards a Universal Audio Pre-training Framework	Apr 9, 2024	Audio Classification	—Unverified	0
Audio-Visual Generalized Zero-Shot Learning using Pre-Trained Large Multi-Modal Models	Apr 9, 2024	Audio ClassificationGeneralized Zero-Shot Learning	CodeCode Available	1
DTF-AT: Decoupled Time-Frequency Audio Transformer for Event Classification	Mar 24, 2024	Audio ClassificationInformation Retrieval	CodeCode Available	1
InternVideo2: Scaling Foundation Models for Multimodal Video Understanding	Mar 22, 2024	Action ClassificationAction Recognition	CodeCode Available	7
BirdSet: A Large-Scale Dataset for Audio Classification in Avian Bioacoustics	Mar 15, 2024	Audio ClassificationClassification	CodeCode Available	2
EquiAV: Leveraging Equivariance for Audio-Visual Contrastive Learning	Mar 14, 2024	Audio Classificationaudio-visual learning	CodeCode Available	1
Mixer is more than just a model	Feb 28, 2024	Audio ClassificationEnvironmental Sound Classification	—Unverified	0
Leveraging Pre-Trained Autoencoders for Interpretable Prototype Learning of Music Audio	Feb 14, 2024	Audio ClassificationDecoder	CodeCode Available	2
Tuning In: Analysis of Audio Classifier Performance in Clinical Settings with Limited Data	Feb 7, 2024	Audio ClassificationClassification	—Unverified	0
On the Transferability of Large-Scale Self-Supervision to Few-Shot Audio Classification	Feb 2, 2024	Audio ClassificationFew-Shot Audio Classification	CodeCode Available	1
From Coarse to Fine: Efficient Training for Audio Spectrogram Transformers	Jan 16, 2024	Audio Classification	—Unverified	0
Learning Audio Concepts from Counterfactual Natural Language	Jan 10, 2024	Audio captioningAudio Classification	CodeCode Available	0
Class-Incremental Learning for Multi-Label Audio Classification	Jan 9, 2024	Audio ClassificationClassification	—Unverified	0
EAT: Self-Supervised Pre-Training with Efficient Audio Transformer	Jan 7, 2024	Audio ClassificationSelf-Supervised Learning	CodeCode Available	3
Oceanship: A Large-Scale Dataset for Underwater Audio Target Recognition	Jan 4, 2024	AttributeAudio Classification	CodeCode Available	2
OmniVec2 - A Novel Transformer based Network for Large Scale Multimodal and Multitask Learning	Jan 1, 2024	3D Point Cloud ClassificationAction Classification	—Unverified	0
On the choice of the optimal temporal support for audio classification with Pre-trained embeddings	Dec 21, 2023	Audio Classification	—Unverified	0
Stethoscope-guided Supervised Contrastive Learning for Cross-domain Adaptation on Respiratory Sound Classification	Dec 15, 2023	Audio ClassificationContrastive Learning	CodeCode Available	1
Parameter-Efficient Transfer Learning of Audio Spectrogram Transformers	Dec 6, 2023	Audio ClassificationFew-Shot Learning	CodeCode Available	1
Acoustic Prompt Tuning: Empowering Large Language Models with Audition Capabilities	Nov 30, 2023	Audio ClassificationFew-Shot Audio Classification	CodeCode Available	1
Formal Verification of Long Short-Term Memory based Audio Classifiers: A Star based Approach	Nov 16, 2023	Audio ClassificationClassification	—Unverified	0
Investigating the Emergent Audio Classification Ability of ASR Foundation Models	Nov 15, 2023	Audio ClassificationDecoder	CodeCode Available	0
Qwen-Audio: Advancing Universal Audio Understanding via Unified Large-Scale Audio-Language Models	Nov 14, 2023	Acoustic Scene ClassificationAudio captioning	CodeCode Available	3
Pruning random resistive memory for optimizing analogue AI	Nov 13, 2023	Audio ClassificationImage Segmentation	—Unverified	0
Adversarial Fine-tuning using Generated Respiratory Sound to Address Class Imbalance	Nov 11, 2023	Audio ClassificationSound Classification	CodeCode Available	1
Mirasol3B: A Multimodal Autoregressive model for time-aligned and contextual modalities	Nov 9, 2023	Action ClassificationAudio Classification	—Unverified	0
Auto deep learning for bioacoustic signals	Nov 8, 2023	Audio ClassificationClassification	CodeCode Available	0

Show:10 25 50

← PrevPage 2 of 8Next →

All datasets AudioSet ESC-50 ICBHI Respiratory Sound Database VGGSound SHD FSD50K Balanced Audio Set Speech Commands SSC BirdCLEF 2021 DCASE EPIC-KITCHENS-100

Benchmark Results

#	Model	Metric	Claimed	Verified	Status
1	OmniVec2	Test mAP	0.56	—	Unverified
2	OmniVec	Test mAP	0.55	—	Unverified
3	EquiAV	Test mAP	0.55	—	Unverified
4	MAViL (Audio-Visual, single)	Test mAP	0.53	—	Unverified
5	Audiovisual Masked Autoencoder (Audiovisual, Single)	Test mAP	0.52	—	Unverified
6	CAV-MAE (Audio-Visual)	Test mAP	0.51	—	Unverified
7	BEATs (Audio-only, Ensemble)	Test mAP	0.51	—	Unverified
8	UAVM (Audio + Video)	Test mAP	0.5	—	Unverified
9	SSLAM (Audio-Only, Single)	Test mAP	0.5	—	Unverified
10	mn40_as (Ensemble)	Test mAP	0.5	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	OmniVec2	Top-1 Accuracy	99.1	—	Unverified
2	InternVideo2	Top-1 Accuracy	98.6	—	Unverified
3	M2D2 AS+	Top-1 Accuracy	98.5	—	Unverified
4	OmniVec	Top-1 Accuracy	98.4	—	Unverified
5	BEATs	Top-1 Accuracy	98.1	—	Unverified
6	mn40_as	Top-1 Accuracy	97.45	—	Unverified
7	M2D-CLAP/0.7	Top-1 Accuracy	97.4	—	Unverified
8	DyMN-L	Top-1 Accuracy	97.4	—	Unverified
9	M2D-AS/0.7	Top-1 Accuracy	97.2	—	Unverified
10	HTS-AT	Top-1 Accuracy	97	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	ADD	ICBHI Score	65.53	—	Unverified
2	BEATs (PAFA)	ICBHI Score	64.84	—	Unverified
3	BTS	ICBHI Score	63.54	—	Unverified
4	BEATs (CE)	ICBHI Score	63.49	—	Unverified
5	M2D-X/0.7 (η=0.3)	ICBHI Score	63.29	—	Unverified
6	CycleGuardian	ICBHI Score	63.26	—	Unverified
7	M2D/0.7 (e=0.3)	ICBHI Score	62.73	—	Unverified
8	Audio-CLAP	ICBHI Score	62.56	—	Unverified
9	AST (Patch-Mix CL)	ICBHI Score	62.37	—	Unverified
10	AFT on Mixed-500	ICBHI Score	61.79	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	MBT (AV)	Top 5 Accuracy	85.6	—	Unverified
2	Mirasol3B	Top 1 Accuracy	69.8	—	Unverified
3	CA2ST(B/16)	Top 1 Accuracy	68.3	—	Unverified
4	ONE-PEACE (Audio-Visual)	Top 1 Accuracy	68.2	—	Unverified
5	CAVA(B/16)	Top 1 Accuracy	68.2	—	Unverified
6	EquiAV	Top 1 Accuracy	67.1	—	Unverified
7	MAViL	Top 1 Accuracy	67.1	—	Unverified
8	MMT (Audio-Visual)	Top 1 Accuracy	66.2	—	Unverified
9	CAV-MAE (Audio-Visual)	Top 1 Accuracy	65.9	—	Unverified
10	UAVM (Audio + Video)	Top 1 Accuracy	65.8	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	Event-SSM	Percentage correct	95.9	—	Unverified
2	SNN with Dilated Convolution with Learnable Spacings	Percentage correct	95.1	—	Unverified
3	SNN featuring learnable axonal delays with adaptively delay caps	Percentage correct	92.45	—	Unverified
4	CNN	Percentage correct	92.4	—	Unverified
5	SNN with spatio-temporal filters and attention	Percentage correct	92.4	—	Unverified
6	SNN with temporal-wise attention	Percentage correct	91.1	—	Unverified
7	SNN	Percentage correct	87	—	Unverified
8	Recurrent convolutional SNN	Percentage correct	83.5	—	Unverified
9	Recurrent SNN	Percentage correct	83.2	—	Unverified
10	Sparse Spiking Gradient Descent	Percentage correct	77.5	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	ONE-PEACE	mAP	69.7	—	Unverified
2	MN	mAP	65.6	—	Unverified
3	PaSST-S	mAP	65.55	—	Unverified
4	DyMN-L	mAP	65.5	—	Unverified
5	PaSST-N-S	mAP	64.2	—	Unverified
6	LHGNN	Mean AP	59	—	Unverified
7	PSLA	mAP	56.71	—	Unverified
8	MATPAC (SSL Model)	mAP	55.2	—	Unverified
9	Temporal Knowledge Distillation for On-device Audio Classification	mAP	54.8	—	Unverified
10	Large 6-Layer Transformer with Pooling	mAP	53.7	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	EquiAV	Mean AP	42.4	—	Unverified
2	SSLAM	Mean AP	40.9	—	Unverified
3	EAT	Mean AP	40.3	—	Unverified
4	BEATs	Mean AP	38.9	—	Unverified
5	Base (ours)	Mean AP	37.4	—	Unverified
6	SSAST-PATCH	Mean AP	31	—	Unverified
7	SSAST-FRAME	Mean AP	29.2	—	Unverified
8	Conformer	Mean AP	27.6	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	PDC	Accuracy	97.8	—	Unverified
2	ASM-RH	Accuracy	96.51	—	Unverified
3	EfficientLEAF	Accuracy	95.2	—	Unverified
4	melspect	Accuracy	95.1	—	Unverified
5	LEAF	Accuracy	95.1	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	Event-SSM	Accuracy	88.4	—	Unverified
2	SNN with Dilated Convolution with Learnable Spacings	Accuracy	80.69	—	Unverified
3	RadLIF	Accuracy	77.4	—	Unverified
4	SpikGRU	Accuracy	77	—	Unverified
5	Adaptive SRNN	Accuracy	74.2	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	EfficientLEAF (8s)	Accuracy	72.2	—	Unverified
2	EfficientLEAF	Accuracy	42.9	—	Unverified
3	LEAF	Accuracy	42.3	—	Unverified
4	melspect	Accuracy	39.9	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	CrissCross (AudioSet)	Top-1 Accuracy	97	—	Unverified
2	CrissCross (Kinetics-400)	Top-1 Accuracy	96	—	Unverified
3	XDC	Top-1 Accuracy	95	—	Unverified
4	CrissCross (Kinetics-Sound)	Top-1 Accuracy	93	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	Audiovisual Masked Autoencoder (Audiovisual, Single)	Top-1 Action	46	—	Unverified
2	Audiovisual Masked Autoencoder (Video-only, Single)	Top-1 Action	45.8	—	Unverified
3	Audiovisual Masked Autoencoder (Audio-only, Single)	Top-1 Action	19.7	—	Unverified
4	PlayItBackX3	Top-1 Action	15.9	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	M2D-AS/0.7	Mean AP	48.5	—	Unverified
2	LHGNN	Mean AP	46.6	—	Unverified
3	VAB-Encodec (Ours)	Mean AP	38.7	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	EfficientLEAF	Accuracy	60.2	—	Unverified
2	melspect	Accuracy	58.8	—	Unverified
3	LEAF	Accuracy	50.2	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	AUCO ResNet	AUC	0.82	—	Unverified
2	DenseNet 201	AUC	0.6	—	Unverified
3	Inception ResNet V2	AUC	0.6	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	Mirasol3B	Accuracy	78.2	—	Unverified
2	CA2ST(B/16)	Accuracy	61	—	Unverified
3	CAVA(B/16)	Accuracy	60.3	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	ASM-RH-A	Top-1 Accuracy	75.4	—	Unverified
2	ERANN-0-4	Top-1 Accuracy	74.8	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	Qwen-Audio	Accuracy	92.89	—	Unverified
2	VocalSound Baseline	Accuracy	90.5	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	XGBoost (330)	Accuracy (10-fold)	99.3	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	animal2vec	AP	0.91	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	Audio	Accuracy (%)	64.5	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	CDIL	FruitFlies	97.09	—	Unverified