Audio Classification

Audio Classification is a machine learning task that involves identifying and tagging audio signals into different classes or categories. The goal of audio classification is to enable machines to automatically recognize and distinguish between different types of audio, such as music, speech, and environmental sounds.

Papers

Recently Added Most Hyped Most Active Needs Verification Most Verified

Showing 301–350 of 361 papers

Title	Date	Tasks	Status
An Ensemble of Convolutional Neural Networks for Audio Classification	Jul 15, 2020	Audio ClassificationClassification	—Unverified
Private Speech Classification with Secure Multiparty Computation	Jul 1, 2020	Audio ClassificationAudio Signal Processing	—Unverified
A Sequential Self Teaching Approach for Improving Generalization in Sound Event Recognition	Jun 30, 2020	Audio ClassificationTransfer Learning	—Unverified
Self-Supervised MultiModal Versatile Networks	Jun 29, 2020	Action Recognition In VideosAudio Classification	CodeCode Available
A Deep Neural Network for Audio Classification with a Classifier Attention Mechanism	Jun 14, 2020	Audio ClassificationGeneral Classification	—Unverified
Large Scale Audiovisual Learning of Sounds with Weakly Labeled Data	May 29, 2020	Audio Classification	—Unverified
Microphone Array Based Surveillance Audio Classification	May 22, 2020	Audio ClassificationClassification	—Unverified
A FRAMEWORK FOR ROBUSTNESS CERTIFICATION OF SMOOTHED CLASSIFIERS USING F-DIVERGENCES	May 1, 2020	Audio ClassificationBIG-bench Machine Learning	—Unverified
Automatic Classification of Large-Scale Respiratory Sound Dataset Based on Convolutional Neural Network	Jan 30, 2020	Audio ClassificationClassification	—Unverified
Exploring Context, Attention and Audio Features for Audio Visual Scene-Aware Dialog	Dec 20, 2019	Audio ClassificationVisual Grounding	—Unverified
Leveraging Topics and Audio Features with Multimodal Attention for Audio Visual Scene-Aware Dialog	Dec 20, 2019	Audio ClassificationResponse Generation	—Unverified
Data augmentation approaches for improving animal audio classification	Dec 16, 2019	Audio ClassificationClassification	—Unverified
Environmental Sound Classification with Parallel Temporal-spectral Attention	Dec 14, 2019	Acoustic Scene ClassificationAudio Classification	—Unverified
Audiogmenter: a MATLAB Toolbox for Audio Data Augmentation	Dec 11, 2019	Audio ClassificationData Augmentation	CodeCode Available
LungBRN: A Smart Digital Stethoscope for Detecting Respiratory Disease Using bi-ResNet Deep Learning Algorithm	Dec 5, 2019	Audio ClassificationDiagnostic	CodeCode Available
Self-Supervised Learning by Cross-Modal Audio-Video Clustering	Nov 28, 2019	Action RecognitionAudio Classification	CodeCode Available
An End-to-End Audio Classification System based on Raw Waveforms and Mix-Training Strategy	Nov 21, 2019	Audio ClassificationClassification	—Unverified
Cross-modal supervised learning for better acoustic representations	Nov 15, 2019	Audio ClassificationGeneral Classification	CodeCode Available
Segment Relevance Estimation for Audio Analysis and Weakly-Labelled Classification	Nov 12, 2019	Audio ClassificationClassification	—Unverified
Label-efficient audio classification through multitask learning and self-supervision	Oct 19, 2019	Audio ClassificationClassification	—Unverified
The Heidelberg spiking datasets for the systematic evaluation of spiking neural networks	Oct 16, 2019	Audio ClassificationGeneral Classification	—Unverified
SpectroBank: A filter-bank convolutional layer for CNN-based audio applications	Sep 25, 2019	Audio Classification	—Unverified
Certifying Neural Network Audio Classifiers	Sep 25, 2019	Audio Classification	—Unverified
Defensive Tensorization: Randomized Tensor Parametrization for Robust Neural Networks	Sep 25, 2019	Adversarial DefenseAudio Classification	—Unverified
AI for Earth: Rainforest Conservation by Acoustic Surveillance	Aug 20, 2019	Audio ClassificationBIG-bench Machine Learning	—Unverified
Universal Adversarial Audio Perturbations	Aug 8, 2019	Audio Classification	CodeCode Available
Compact Global Descriptor for Neural Networks	Jul 23, 2019	Audio ClassificationDeep Attention	CodeCode Available
Deep Neural Baselines for Computational Paralinguistics	Jul 5, 2019	Audio ClassificationBIG-bench Machine Learning	—Unverified
On the performance of residual block design alternatives in convolutional neural networks for end-to-end audio classification	Jun 26, 2019	Audio ClassificationClassification	—Unverified
Specifying Weight Priors in Bayesian Deep Neural Networks with Empirical Bayes	Jun 12, 2019	Activity RecognitionAudio Classification	CodeCode Available
Simultaneously Learning Architectures and Features of Deep Neural Networks	Jun 11, 2019	Audio ClassificationClassification	—Unverified
CNN depth analysis with different channel inputs for Acoustic Scene Classification	Jun 10, 2019	Acoustic Scene ClassificationAudio Classification	—Unverified
Unified Probabilistic Deep Continual Learning through Generative Replay and Open Set Recognition	May 28, 2019	Audio ClassificationBayesian Inference	CodeCode Available
Zero-Shot Audio Classification Based on Class Label Embeddings	May 6, 2019	Audio ClassificationClassification	—Unverified
A Robust Approach for Securing Audio Classification Against Adversarial Attacks	Apr 24, 2019	Audio ClassificationBIG-bench Machine Learning	—Unverified
Audio-Visual Model Distillation Using Acoustic Images	Apr 16, 2019	Action RecognitionAudio Classification	CodeCode Available
Audio Classification of Bit-Representation Waveform	Apr 8, 2019	Audio ClassificationClassification	—Unverified
Improving performance and inference on audio classification tasks using capsule networks	Feb 13, 2019	Audio ClassificationClassification	—Unverified
Context, Attention and Audio Feature Explorations for Audio Visual Scene-Aware Dialog	Dec 20, 2018	Audio ClassificationGeneral Classification	—Unverified
Cross-domain Deep Feature Combination for Bird Species Classification with Audio-visual Data	Nov 26, 2018	Audio ClassificationBird Species Classification With Audio-Visual Data	—Unverified
AclNet: efficient end-to-end audio classification CNN	Nov 16, 2018	Audio ClassificationClassification	—Unverified
Ubicoustics: Plug-and-Play Acoustic Activity Recognition	Oct 14, 2018	Activity RecognitionAudio Classification	CodeCode Available
Cooperative Learning of Audio and Video Models from Self-Supervised Synchronization	Jun 30, 2018	Action RecognitionAudio Classification	—Unverified
A Closer Look at Weak Label Learning for Audio Events	Apr 24, 2018	Audio ClassificationEvent Detection	CodeCode Available
Multi-level Attention Model for Weakly Supervised Audio Classification	Mar 6, 2018	Audio Classification	CodeCode Available
Masked Conditional Neural Networks for Audio Classification	Mar 6, 2018	Audio ClassificationClassification	—Unverified
WSNet: Learning Compact and Efficient Networks with Weight Sampling	Jan 1, 2018	Audio ClassificationGeneral Classification	—Unverified
Representations of Sound in Deep Learning of Audio Features from Music	Dec 8, 2017	Audio ClassificationGeneral Classification	—Unverified
Raw Waveform-based Audio Classification Using Sample-level CNN Architectures	Dec 4, 2017	Audio ClassificationClassification	—Unverified
Learning Sparse Adversarial Dictionaries For Multi-Class Audio Classification	Dec 2, 2017	Audio ClassificationAudio Denoising	—Unverified

Show:10 25 50

← PrevPage 7 of 8Next →

All datasets AudioSet ESC-50 ICBHI Respiratory Sound Database VGGSound SHD FSD50K Balanced Audio Set Speech Commands SSC BirdCLEF 2021 DCASE EPIC-KITCHENS-100

Benchmark Results

#	Model	Metric	Claimed	Verified	Status
1	OmniVec2	Test mAP	0.56	—	Unverified
2	OmniVec	Test mAP	0.55	—	Unverified
3	EquiAV	Test mAP	0.55	—	Unverified
4	MAViL (Audio-Visual, single)	Test mAP	0.53	—	Unverified
5	Audiovisual Masked Autoencoder (Audiovisual, Single)	Test mAP	0.52	—	Unverified
6	CAV-MAE (Audio-Visual)	Test mAP	0.51	—	Unverified
7	BEATs (Audio-only, Ensemble)	Test mAP	0.51	—	Unverified
8	UAVM (Audio + Video)	Test mAP	0.5	—	Unverified
9	SSLAM (Audio-Only, Single)	Test mAP	0.5	—	Unverified
10	mn40_as (Ensemble)	Test mAP	0.5	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	OmniVec2	Top-1 Accuracy	99.1	—	Unverified
2	InternVideo2	Top-1 Accuracy	98.6	—	Unverified
3	M2D2 AS+	Top-1 Accuracy	98.5	—	Unverified
4	OmniVec	Top-1 Accuracy	98.4	—	Unverified
5	BEATs	Top-1 Accuracy	98.1	—	Unverified
6	mn40_as	Top-1 Accuracy	97.45	—	Unverified
7	M2D-CLAP/0.7	Top-1 Accuracy	97.4	—	Unverified
8	DyMN-L	Top-1 Accuracy	97.4	—	Unverified
9	M2D-AS/0.7	Top-1 Accuracy	97.2	—	Unverified
10	HTS-AT	Top-1 Accuracy	97	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	ADD	ICBHI Score	65.53	—	Unverified
2	BEATs (PAFA)	ICBHI Score	64.84	—	Unverified
3	BTS	ICBHI Score	63.54	—	Unverified
4	BEATs (CE)	ICBHI Score	63.49	—	Unverified
5	M2D-X/0.7 (η=0.3)	ICBHI Score	63.29	—	Unverified
6	CycleGuardian	ICBHI Score	63.26	—	Unverified
7	M2D/0.7 (e=0.3)	ICBHI Score	62.73	—	Unverified
8	Audio-CLAP	ICBHI Score	62.56	—	Unverified
9	AST (Patch-Mix CL)	ICBHI Score	62.37	—	Unverified
10	AFT on Mixed-500	ICBHI Score	61.79	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	MBT (AV)	Top 5 Accuracy	85.6	—	Unverified
2	Mirasol3B	Top 1 Accuracy	69.8	—	Unverified
3	CA2ST(B/16)	Top 1 Accuracy	68.3	—	Unverified
4	ONE-PEACE (Audio-Visual)	Top 1 Accuracy	68.2	—	Unverified
5	CAVA(B/16)	Top 1 Accuracy	68.2	—	Unverified
6	EquiAV	Top 1 Accuracy	67.1	—	Unverified
7	MAViL	Top 1 Accuracy	67.1	—	Unverified
8	MMT (Audio-Visual)	Top 1 Accuracy	66.2	—	Unverified
9	CAV-MAE (Audio-Visual)	Top 1 Accuracy	65.9	—	Unverified
10	UAVM (Audio + Video)	Top 1 Accuracy	65.8	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	Event-SSM	Percentage correct	95.9	—	Unverified
2	SNN with Dilated Convolution with Learnable Spacings	Percentage correct	95.1	—	Unverified
3	SNN featuring learnable axonal delays with adaptively delay caps	Percentage correct	92.45	—	Unverified
4	CNN	Percentage correct	92.4	—	Unverified
5	SNN with spatio-temporal filters and attention	Percentage correct	92.4	—	Unverified
6	SNN with temporal-wise attention	Percentage correct	91.1	—	Unverified
7	SNN	Percentage correct	87	—	Unverified
8	Recurrent convolutional SNN	Percentage correct	83.5	—	Unverified
9	Recurrent SNN	Percentage correct	83.2	—	Unverified
10	Sparse Spiking Gradient Descent	Percentage correct	77.5	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	ONE-PEACE	mAP	69.7	—	Unverified
2	MN	mAP	65.6	—	Unverified
3	PaSST-S	mAP	65.55	—	Unverified
4	DyMN-L	mAP	65.5	—	Unverified
5	PaSST-N-S	mAP	64.2	—	Unverified
6	LHGNN	Mean AP	59	—	Unverified
7	PSLA	mAP	56.71	—	Unverified
8	MATPAC (SSL Model)	mAP	55.2	—	Unverified
9	Temporal Knowledge Distillation for On-device Audio Classification	mAP	54.8	—	Unverified
10	Large 6-Layer Transformer with Pooling	mAP	53.7	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	EquiAV	Mean AP	42.4	—	Unverified
2	SSLAM	Mean AP	40.9	—	Unverified
3	EAT	Mean AP	40.3	—	Unverified
4	BEATs	Mean AP	38.9	—	Unverified
5	Base (ours)	Mean AP	37.4	—	Unverified
6	SSAST-PATCH	Mean AP	31	—	Unverified
7	SSAST-FRAME	Mean AP	29.2	—	Unverified
8	Conformer	Mean AP	27.6	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	PDC	Accuracy	97.8	—	Unverified
2	ASM-RH	Accuracy	96.51	—	Unverified
3	EfficientLEAF	Accuracy	95.2	—	Unverified
4	melspect	Accuracy	95.1	—	Unverified
5	LEAF	Accuracy	95.1	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	Event-SSM	Accuracy	88.4	—	Unverified
2	SNN with Dilated Convolution with Learnable Spacings	Accuracy	80.69	—	Unverified
3	RadLIF	Accuracy	77.4	—	Unverified
4	SpikGRU	Accuracy	77	—	Unverified
5	Adaptive SRNN	Accuracy	74.2	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	EfficientLEAF (8s)	Accuracy	72.2	—	Unverified
2	EfficientLEAF	Accuracy	42.9	—	Unverified
3	LEAF	Accuracy	42.3	—	Unverified
4	melspect	Accuracy	39.9	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	CrissCross (AudioSet)	Top-1 Accuracy	97	—	Unverified
2	CrissCross (Kinetics-400)	Top-1 Accuracy	96	—	Unverified
3	XDC	Top-1 Accuracy	95	—	Unverified
4	CrissCross (Kinetics-Sound)	Top-1 Accuracy	93	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	Audiovisual Masked Autoencoder (Audiovisual, Single)	Top-1 Action	46	—	Unverified
2	Audiovisual Masked Autoencoder (Video-only, Single)	Top-1 Action	45.8	—	Unverified
3	Audiovisual Masked Autoencoder (Audio-only, Single)	Top-1 Action	19.7	—	Unverified
4	PlayItBackX3	Top-1 Action	15.9	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	M2D-AS/0.7	Mean AP	48.5	—	Unverified
2	LHGNN	Mean AP	46.6	—	Unverified
3	VAB-Encodec (Ours)	Mean AP	38.7	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	EfficientLEAF	Accuracy	60.2	—	Unverified
2	melspect	Accuracy	58.8	—	Unverified
3	LEAF	Accuracy	50.2	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	AUCO ResNet	AUC	0.82	—	Unverified
2	DenseNet 201	AUC	0.6	—	Unverified
3	Inception ResNet V2	AUC	0.6	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	Mirasol3B	Accuracy	78.2	—	Unverified
2	CA2ST(B/16)	Accuracy	61	—	Unverified
3	CAVA(B/16)	Accuracy	60.3	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	ASM-RH-A	Top-1 Accuracy	75.4	—	Unverified
2	ERANN-0-4	Top-1 Accuracy	74.8	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	Qwen-Audio	Accuracy	92.89	—	Unverified
2	VocalSound Baseline	Accuracy	90.5	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	XGBoost (330)	Accuracy (10-fold)	99.3	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	animal2vec	AP	0.91	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	Audio	Accuracy (%)	64.5	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	CDIL	FruitFlies	97.09	—	Unverified