Audio Classification

Audio Classification is a machine learning task that involves identifying and tagging audio signals into different classes or categories. The goal of audio classification is to enable machines to automatically recognize and distinguish between different types of audio, such as music, speech, and environmental sounds.

Papers

Recently Added Most Hyped Most Active Needs Verification Most Verified

Showing 251–300 of 361 papers

Title	Date	Tasks	Status
Learning neural audio features without supervision	Mar 29, 2022	Audio ClassificationSelf-Supervised Learning	—Unverified
Neural Architecture Search for Energy Efficient Always-on Audio Models	Feb 9, 2022	Audio ClassificationClassification	—Unverified
Connecting the Dots between Audio and Text without Parallel Data through Visual Knowledge Transfer	Jan 16, 2022	Audio ClassificationAudio Tagging	—Unverified
ARSC-Net: Adventitious Respiratory Sound Classification Network Using Parallel Paths with Channel-Spatial Attention	Jan 14, 2022	Audio ClassificationClassification	—Unverified
Augmented Contrastive Self-Supervised Learning for Audio Invariant Representations	Dec 21, 2021	Audio ClassificationClassification	—Unverified
PolyViT: Co-training Vision Transformers on Images, Videos and Audio	Nov 25, 2021	Audio Classification	—Unverified
Efficient Neuromorphic Signal Processing with Loihi 2	Nov 5, 2021	Audio ClassificationOptical Flow Estimation	—Unverified
LungAttn: advanced lung sound classification using attention mechanism with dual TQWT and triple STFT spectrogram	Oct 29, 2021	Audio ClassificationLung Sound Classification	CodeCode Available
Temporal Knowledge Distillation for On-device Audio Classification	Oct 27, 2021	Audio ClassificationClassification	—Unverified
Defensive Tensorization	Oct 26, 2021	Audio ClassificationClassification	—Unverified
Conformer-Based Self-Supervised Learning for Non-Speech Audio Tasks	Oct 14, 2021	Audio ClassificationRepresentation Learning	—Unverified
Study of positional encoding approaches for Audio Spectrogram Transformers	Oct 13, 2021	Audio Classification	CodeCode Available
Rank-based loss for learning hierarchical representations	Oct 11, 2021	Audio ClassificationTriplet	CodeCode Available
SpliceOut: A Simple and Efficient Audio Augmentation Method	Sep 30, 2021	Audio ClassificationAutomatic Speech Recognition	—Unverified
Audio Interval Retrieval using Convolutional Neural Networks	Sep 21, 2021	Audio ClassificationRetrieval	—Unverified
Pruning vs XNOR-Net: A Comprehensive Study of Deep Learning for Audio Classification on Edge-devices	Aug 13, 2021	Audio ClassificationClassification	CodeCode Available
An empirical investigation into audio pipeline approaches for classifying bird species	Aug 10, 2021	Audio ClassificationClassification	—Unverified
Lung Sound Classification Using Co-tuning and Stochastic Normalization	Aug 4, 2021	Audio ClassificationData Augmentation	—Unverified
A Multi-Head Relevance Weighting Framework For Learning Raw Waveform Audio Representations	Jul 30, 2021	Audio ClassificationSound Classification	—Unverified
Temporal-wise Attention Spiking Neural Networks for Event Streams Classification	Jul 25, 2021	Audio ClassificationClassification	—Unverified
Over-Parameterization and Generalization in Audio Classification	Jul 19, 2021	Acoustic Scene ClassificationAudio Classification	—Unverified
On the Veracity of Local, Model-agnostic Explanations in Audio Classification: Targeted Investigations with Adversarial Examples	Jul 19, 2021	Audio Classification	CodeCode Available
Attention Bottlenecks for Multimodal Fusion	Jun 30, 2021	Action ClassificationAction Recognition	CodeCode Available
On fine-tuning of Autoencoders for Fuzzy rule classifiers	Jun 21, 2021	Audio ClassificationClassification	—Unverified
Zero-Shot Federated Learning with New Classes for Audio Classification	Jun 18, 2021	Audio ClassificationClassification	—Unverified
belabBERT: a Dutch RoBERTa-based language model applied to psychiatric classification	Jun 2, 2021	Audio ClassificationClassification	—Unverified
Single-Layer Vision Transformers for More Accurate Early Exits with Less Overhead	May 19, 2021	Audio ClassificationCrowd Counting	—Unverified
Accent Recognition with Hybrid Phonetic Features	May 5, 2021	Audio ClassificationAutomatic Speech Recognition	—Unverified
Audio Transformers	May 1, 2021	Audio ClassificationUnsupervised Pre-training	—Unverified
IDMT-Traffic: An Open Benchmark Dataset for Acoustic Traffic Monitoring Research	Apr 28, 2021	Audio ClassificationGeneral Classification	—Unverified
DASEE A Synthetic Database of Domestic Acoustic Scenes and Events in Dementia Patients Environment	Apr 27, 2021	Audio ClassificationRoom Impulse Response (RIR)	—Unverified
Augmenting Deep Classifiers with Polynomial Neural Networks	Apr 16, 2021	Audio ClassificationGeneral Classification	CodeCode Available
Audio feature ranking for sound-based COVID-19 patient detection	Apr 14, 2021	Audio ClassificationClassification	—Unverified
COVID-19 Detection in Cough, Breath and Speech using Deep Transfer Learning and Bottleneck Features	Apr 2, 2021	Audio ClassificationBIG-bench Machine Learning	—Unverified
Self-paced ensemble learning for speech and audio classification	Mar 22, 2021	Audio ClassificationClassification	—Unverified
Accurate and efficient time-domain classification with adaptive spiking recurrent neural networks	Mar 12, 2021	Audio Classificationdomain classification	—Unverified
Multi-Format Contrastive Learning of Audio Representations	Mar 11, 2021	Audio ClassificationContrastive Learning	—Unverified
Adaptive Weighting Scheme for Automatic Time-Series Data Augmentation	Feb 16, 2021	Audio ClassificationData Augmentation	—Unverified
Semi Supervised Learning For Few-shot Audio Classification By Episodic Triplet Mining	Feb 16, 2021	Audio ClassificationEvent Detection	—Unverified
Deep Convolutional and Recurrent Networks for Polyphonic Instrument Classification from Monophonic Raw Audio Waveforms	Feb 13, 2021	Audio ClassificationClassification	—Unverified
Enhancing Audio Augmentation Methods with Consistency Learning	Feb 9, 2021	Audio ClassificationAudio Tagging	—Unverified
A Universal Learnable Audio Frontend	Jan 1, 2021	Audio Classification	—Unverified
COVID-19 Cough Classification using Machine Learning and Global Smartphone Recordings	Dec 2, 2020	Audio ClassificationBIG-bench Machine Learning	—Unverified
A Study of Few-Shot Audio Classification	Dec 2, 2020	Audio ClassificationBIG-bench Machine Learning	—Unverified
Zero-Shot Audio Classification with Factored Linear and Nonlinear Acoustic-Semantic Projections	Nov 25, 2020	Audio ClassificationClassification	—Unverified
Zero-Shot Audio Classification via Semantic Embeddings	Nov 24, 2020	Audio ClassificationClassification	—Unverified
Multi-modal Self-Supervision from Generalized Data Transformations	Sep 28, 2020	Audio ClassificationRetrieval	—Unverified
Detecting Aedes Aegypti Mosquitoes through Audio Classification with Convolutional Neural Networks	Aug 19, 2020	Audio ClassificationGeneral Classification	—Unverified
LungRN+NL: An Improved Adventitious Lung Sound Classification Using Non-Local Block ResNet Neural Network with Mixup Data Augmentation	Aug 1, 2020	Audio ClassificationData Augmentation	—Unverified
Text-based classification of interviews for mental health -- juxtaposing the state of the art	Jul 29, 2020	Audio ClassificationClassification	CodeCode Available

Show:10 25 50

← PrevPage 6 of 8Next →

All datasets AudioSet ESC-50 ICBHI Respiratory Sound Database VGGSound SHD FSD50K Balanced Audio Set Speech Commands SSC BirdCLEF 2021 DCASE EPIC-KITCHENS-100

Benchmark Results

#	Model	Metric	Claimed	Verified	Status
1	OmniVec2	Test mAP	0.56	—	Unverified
2	OmniVec	Test mAP	0.55	—	Unverified
3	EquiAV	Test mAP	0.55	—	Unverified
4	MAViL (Audio-Visual, single)	Test mAP	0.53	—	Unverified
5	Audiovisual Masked Autoencoder (Audiovisual, Single)	Test mAP	0.52	—	Unverified
6	CAV-MAE (Audio-Visual)	Test mAP	0.51	—	Unverified
7	BEATs (Audio-only, Ensemble)	Test mAP	0.51	—	Unverified
8	UAVM (Audio + Video)	Test mAP	0.5	—	Unverified
9	SSLAM (Audio-Only, Single)	Test mAP	0.5	—	Unverified
10	mn40_as (Ensemble)	Test mAP	0.5	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	OmniVec2	Top-1 Accuracy	99.1	—	Unverified
2	InternVideo2	Top-1 Accuracy	98.6	—	Unverified
3	M2D2 AS+	Top-1 Accuracy	98.5	—	Unverified
4	OmniVec	Top-1 Accuracy	98.4	—	Unverified
5	BEATs	Top-1 Accuracy	98.1	—	Unverified
6	mn40_as	Top-1 Accuracy	97.45	—	Unverified
7	M2D-CLAP/0.7	Top-1 Accuracy	97.4	—	Unverified
8	DyMN-L	Top-1 Accuracy	97.4	—	Unverified
9	M2D-AS/0.7	Top-1 Accuracy	97.2	—	Unverified
10	HTS-AT	Top-1 Accuracy	97	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	ADD	ICBHI Score	65.53	—	Unverified
2	BEATs (PAFA)	ICBHI Score	64.84	—	Unverified
3	BTS	ICBHI Score	63.54	—	Unverified
4	BEATs (CE)	ICBHI Score	63.49	—	Unverified
5	M2D-X/0.7 (η=0.3)	ICBHI Score	63.29	—	Unverified
6	CycleGuardian	ICBHI Score	63.26	—	Unverified
7	M2D/0.7 (e=0.3)	ICBHI Score	62.73	—	Unverified
8	Audio-CLAP	ICBHI Score	62.56	—	Unverified
9	AST (Patch-Mix CL)	ICBHI Score	62.37	—	Unverified
10	AFT on Mixed-500	ICBHI Score	61.79	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	MBT (AV)	Top 5 Accuracy	85.6	—	Unverified
2	Mirasol3B	Top 1 Accuracy	69.8	—	Unverified
3	CA2ST(B/16)	Top 1 Accuracy	68.3	—	Unverified
4	ONE-PEACE (Audio-Visual)	Top 1 Accuracy	68.2	—	Unverified
5	CAVA(B/16)	Top 1 Accuracy	68.2	—	Unverified
6	EquiAV	Top 1 Accuracy	67.1	—	Unverified
7	MAViL	Top 1 Accuracy	67.1	—	Unverified
8	MMT (Audio-Visual)	Top 1 Accuracy	66.2	—	Unverified
9	CAV-MAE (Audio-Visual)	Top 1 Accuracy	65.9	—	Unverified
10	UAVM (Audio + Video)	Top 1 Accuracy	65.8	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	Event-SSM	Percentage correct	95.9	—	Unverified
2	SNN with Dilated Convolution with Learnable Spacings	Percentage correct	95.1	—	Unverified
3	SNN featuring learnable axonal delays with adaptively delay caps	Percentage correct	92.45	—	Unverified
4	CNN	Percentage correct	92.4	—	Unverified
5	SNN with spatio-temporal filters and attention	Percentage correct	92.4	—	Unverified
6	SNN with temporal-wise attention	Percentage correct	91.1	—	Unverified
7	SNN	Percentage correct	87	—	Unverified
8	Recurrent convolutional SNN	Percentage correct	83.5	—	Unverified
9	Recurrent SNN	Percentage correct	83.2	—	Unverified
10	Sparse Spiking Gradient Descent	Percentage correct	77.5	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	ONE-PEACE	mAP	69.7	—	Unverified
2	MN	mAP	65.6	—	Unverified
3	PaSST-S	mAP	65.55	—	Unverified
4	DyMN-L	mAP	65.5	—	Unverified
5	PaSST-N-S	mAP	64.2	—	Unverified
6	LHGNN	Mean AP	59	—	Unverified
7	PSLA	mAP	56.71	—	Unverified
8	MATPAC (SSL Model)	mAP	55.2	—	Unverified
9	Temporal Knowledge Distillation for On-device Audio Classification	mAP	54.8	—	Unverified
10	Large 6-Layer Transformer with Pooling	mAP	53.7	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	EquiAV	Mean AP	42.4	—	Unverified
2	SSLAM	Mean AP	40.9	—	Unverified
3	EAT	Mean AP	40.3	—	Unverified
4	BEATs	Mean AP	38.9	—	Unverified
5	Base (ours)	Mean AP	37.4	—	Unverified
6	SSAST-PATCH	Mean AP	31	—	Unverified
7	SSAST-FRAME	Mean AP	29.2	—	Unverified
8	Conformer	Mean AP	27.6	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	PDC	Accuracy	97.8	—	Unverified
2	ASM-RH	Accuracy	96.51	—	Unverified
3	EfficientLEAF	Accuracy	95.2	—	Unverified
4	melspect	Accuracy	95.1	—	Unverified
5	LEAF	Accuracy	95.1	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	Event-SSM	Accuracy	88.4	—	Unverified
2	SNN with Dilated Convolution with Learnable Spacings	Accuracy	80.69	—	Unverified
3	RadLIF	Accuracy	77.4	—	Unverified
4	SpikGRU	Accuracy	77	—	Unverified
5	Adaptive SRNN	Accuracy	74.2	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	EfficientLEAF (8s)	Accuracy	72.2	—	Unverified
2	EfficientLEAF	Accuracy	42.9	—	Unverified
3	LEAF	Accuracy	42.3	—	Unverified
4	melspect	Accuracy	39.9	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	CrissCross (AudioSet)	Top-1 Accuracy	97	—	Unverified
2	CrissCross (Kinetics-400)	Top-1 Accuracy	96	—	Unverified
3	XDC	Top-1 Accuracy	95	—	Unverified
4	CrissCross (Kinetics-Sound)	Top-1 Accuracy	93	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	Audiovisual Masked Autoencoder (Audiovisual, Single)	Top-1 Action	46	—	Unverified
2	Audiovisual Masked Autoencoder (Video-only, Single)	Top-1 Action	45.8	—	Unverified
3	Audiovisual Masked Autoencoder (Audio-only, Single)	Top-1 Action	19.7	—	Unverified
4	PlayItBackX3	Top-1 Action	15.9	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	M2D-AS/0.7	Mean AP	48.5	—	Unverified
2	LHGNN	Mean AP	46.6	—	Unverified
3	VAB-Encodec (Ours)	Mean AP	38.7	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	EfficientLEAF	Accuracy	60.2	—	Unverified
2	melspect	Accuracy	58.8	—	Unverified
3	LEAF	Accuracy	50.2	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	AUCO ResNet	AUC	0.82	—	Unverified
2	DenseNet 201	AUC	0.6	—	Unverified
3	Inception ResNet V2	AUC	0.6	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	Mirasol3B	Accuracy	78.2	—	Unverified
2	CA2ST(B/16)	Accuracy	61	—	Unverified
3	CAVA(B/16)	Accuracy	60.3	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	ASM-RH-A	Top-1 Accuracy	75.4	—	Unverified
2	ERANN-0-4	Top-1 Accuracy	74.8	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	Qwen-Audio	Accuracy	92.89	—	Unverified
2	VocalSound Baseline	Accuracy	90.5	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	XGBoost (330)	Accuracy (10-fold)	99.3	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	animal2vec	AP	0.91	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	Audio	Accuracy (%)	64.5	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	CDIL	FruitFlies	97.09	—	Unverified