Active Speaker Detection

Papers

Recently Added Most Hyped Most Active Needs Verification Most Verified

Showing 26–50 of 63 papers

Title	Date	Tasks	Status
Audio-video fusion strategies for active speaker detection in meetings	Jun 9, 2022	Active Speaker DetectionManagement	—Unverified
Audio-visual child-adult speaker classification in dyadic interactions	Oct 3, 2023	Active Speaker DetectionClassification	—Unverified
Audio-Visual Talker Localization in Video for Spatial Sound Reproduction	Jun 1, 2024	Active Speaker Detection	—Unverified
Best of Both Worlds: Multi-task Audio-Visual Automatic Speech Recognition and Active Speaker Detection	May 10, 2022	Active Speaker DetectionAutomatic Speech Recognition	—Unverified
Cross-modal Supervision for Learning Active Speaker Detection in Video	Mar 29, 2016	Action DetectionActive Speaker Detection	—Unverified
Deep Learning Based Audio-Visual Multi-Speaker DOA Estimation Using Permutation-Free Loss Function	Oct 26, 2022	Active Speaker DetectionSound Source Localization	—Unverified
Detection and Analysis of Content Creator Collaborations in YouTube Videos using Face- and Speaker-Recognition	Jul 5, 2018	Active Speaker DetectionFace Recognition	—Unverified
Egocentric Deep Multi-Channel Audio-Visual Active Speaker Localization	Jan 6, 2022	Action DetectionActive Speaker Detection	—Unverified
End-To-End Audiovisual Feature Fusion for Active Speaker Detection	Jul 27, 2022	Active Speaker Detection	—Unverified
Enhancing Real-World Active Speaker Detection with Multi-Modal Extraction Pre-Training	Apr 1, 2024	Active Speaker DetectionAudio-Visual Active Speaker Detection	—Unverified
FaVoA: Face-Voice Association Favours Ambiguous Speaker Detection	Sep 1, 2021	Active Speaker Detection	—Unverified
How to Squeeze An Explanation Out of Your Model	Dec 6, 2024	Active Speaker Detection	—Unverified
ICTCAS-UCAS-TAL Submission to the AVA-ActiveSpeaker Task at ActivityNet Challenge 2021	Jun 1, 2021	Active Speaker DetectionAudio-Visual Active Speaker Detection	—Unverified
Intel Labs at Ego4D Challenge 2022: A Better Baseline for Audio-Visual Diarization	Oct 14, 2022	Action DetectionActive Speaker Detection	—Unverified
Learning Spatial Features from Audio-Visual Correspondence in Egocentric Videos	Jul 10, 2023	Active Speaker DetectionAudio Denoising	—Unverified
Learning Spatial-Temporal Graphs for Active Speaker Detection	Dec 2, 2021	Active Speaker DetectionAudio-Visual Active Speaker Detection	—Unverified
Data standardization for robust lip sync	Feb 13, 2022	3D Face ReconstructionActive Speaker Detection	—Unverified
Push-Pull: Characterizing the Adversarial Robustness for Audio-Visual Active Speaker Detection	Oct 3, 2022	Active Speaker DetectionAdversarial Robustness	—Unverified
Active Speaker Detection as a Multi-Objective Optimization with Uncertainty-based Multimodal Fusion	Jun 7, 2021	Active Speaker DetectionAudio-Visual Active Speaker Detection	—Unverified
Robust Active Speaker Detection in Noisy Environments	Mar 27, 2024	Active Speaker DetectionSpeech Separation	—Unverified
Self-Supervised Vision-Based Detection of the Active Speaker as Support for Socially-Aware Language Acquisition	Nov 24, 2017	Active Speaker DetectionLanguage Acquisition	—Unverified
Spot the conversation: speaker diarisation in the wild	Jul 2, 2020	Active Speaker DetectionSpeaker Verification	—Unverified
Understanding Co-speech Gestures in-the-wild	Mar 28, 2025	Active Speaker Detection	—Unverified
UniCon+: ICTCAS-UCAS Submission to the AVA-ActiveSpeaker Task at ActivityNet Challenge 2022	Jun 22, 2022	Active Speaker DetectionAudio-Visual Active Speaker Detection	—Unverified
UniCon: Unified Context Network for Robust Active Speaker Detection	Aug 5, 2021	Active Speaker DetectionAudio-Visual Active Speaker Detection	—Unverified

Show:10 25 50

← PrevPage 2 of 3Next →

Benchmark Results

#	Model	Metric	Claimed	Verified	Status
1	GestSync	Accuracy	87	—	Unverified