Sound Event Localization and Detection

Given multichannel audio input, a sound event detection and localization (SELD) system outputs a temporal activation track for each of the target sound classes, along with one or more corresponding spatial trajectories when the track indicates activity. This results in a spatio-temporal characterization of the acoustic scene that can be used in a wide range of machine cognition tasks, such as inference on the type of environment, self-localization, navigation without visual input or with occluded targets, tracking of specific types of sound sources, smart-home applications, scene visualization systems, and audio surveillance, among others.

Papers

Recently Added Most Hyped Most Active Needs Verification Most Verified

Showing 1–10 of 65 papers

Title	Date	Tasks	Status	Hype
Spatial and Semantic Embedding Integration for Stereo Sound Event Localization and Detection in Regular Videos	Jul 7, 2025	Sound Event Localization and Detection	—Unverified	0
Stereo sound event localization and detection based on PSELDnet pretraining and BiMamba sequence modeling	Jun 16, 2025	DecoderMamba	—Unverified	0
CST-former: Multidimensional Attention-based Transformer for Sound Event Localization and Detection in Real Scenes	Apr 17, 2025	Event DetectionSound Event Localization and Detection	—Unverified	0
Reverberation-based Features for Sound Event Localization and Detection with Distance Estimation	Apr 11, 2025	Direction of Arrival EstimationSound Event Localization and Detection	CodeCode Available	0
An Experimental Study on Joint Modeling for Sound Event Localization and Detection with Source Distance Estimation	Jan 18, 2025	Event DetectionSound Event Detection	—Unverified	0
MVANet: Multi-Stage Video Attention Network for Sound Event Localization and Detection with Source Distance Estimation	Nov 21, 2024	Data AugmentationSound Event Localization and Detection	CodeCode Available	0
Class-Incremental Learning for Sound Event Localization and Detection	Nov 19, 2024	class-incremental learningClass Incremental Learning	—Unverified	0
PSELDNets: Pre-trained Neural Networks on Large-scale Synthetic Datasets for Sound Event Localization and Detection	Nov 10, 2024	Direction of Arrival EstimationSound Event Localization and Detection	CodeCode Available	1
DOA-Aware Audio-Visual Self-Supervised Learning for Sound Event Localization and Detection	Oct 30, 2024	Contrastive LearningSelf-Supervised Learning	—Unverified	0
Leveraging Reverberation and Visual Depth Cues for Sound Event Localization and Detection with Distance Estimation	Oct 29, 2024	Sound Event Localization and Detection	—Unverified	0

Show:10 25 50

← PrevPage 1 of 7Next →

All datasets PodcastFillers STARSS22 L3DAS21 RWCP Sound Scene Database TAU-NIGENS Spatial Sound Events 2021

Benchmark Results

#	Model	Metric	Claimed	Verified	Status
1	AVC-FillerNet	event-based F1 score	92.8	—	Unverified
2	VC-FillerNet	event-based F1 score	71	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	Baseline (MIC)	Class-dependent localization error	32.2	—	Unverified
2	Baseline (FOA)	Class-dependent localization error	29.3	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	DualQSELD-TCN (parallel)	SELD score	0.32	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	STL-SNN	accuracy	98.4	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	SALSA-FOA	ER≤20°	0.38	—	Unverified