Speaker Diarization

Speaker Diarization is the task of segmenting and co-indexing audio recordings by speaker. The way the task is commonly defined, the goal is not to identify known speakers, but to co-index segments that are attributed to the same speaker; in other words, diarization implies finding speaker boundaries and grouping segments that belong to the same speaker, and, as a by-product, determining the number of distinct speakers. In combination with speech recognition, diarization enables speaker-attributed speech-to-text transcription.

Source: Improving Diarization Robustness using Diversification, Randomization and the DOVER Algorithm

Papers

Recently Added Most Hyped Most Active Needs Verification Most Verified

Showing 151–200 of 328 papers

Title	Date	Tasks	Status
Enhancing Child Vocalization Classification with Phonetically-Tuned Embeddings for Assisting Autism Diagnosis	Sep 13, 2023	Automatic Speech RecognitionAutomatic Speech Recognition (ASR)	—Unverified
The USTC-NERCSLIP Systems for the CHiME-7 DASR Challenge	Aug 28, 2023	speaker-diarizationSpeaker Diarization	—Unverified
Implicit Self-supervised Language Representation for Spoken Language Diarization	Aug 21, 2023	speaker-diarizationSpeaker Diarization	—Unverified
Home monitoring for frailty detection through sound and speaker diarization analysis	Aug 17, 2023	Privacy Preservingspeaker-diarization	—Unverified
GIST-AiTeR Speaker Diarization System for VoxCeleb Speaker Recognition Challenge (VoxSRC) 2023	Aug 15, 2023	speaker-diarizationSpeaker Diarization	—Unverified
Speaker Diarization of Scripted Audiovisual Content	Aug 4, 2023	speaker-diarizationSpeaker Diarization	—Unverified
Joint speech and overlap detection: a benchmark over multiple audio setup and speech domains	Jul 24, 2023	Multi-class Classificationspeaker-diarization	—Unverified
Semi-supervised multi-channel speaker diarization with cross-channel attention	Jul 17, 2023	speaker-diarizationSpeaker Diarization	—Unverified
Long-term Conversation Analysis: Exploring Utility and Privacy	Jun 28, 2023	Action DetectionActivity Detection	CodeCode Available
Community Detection Graph Convolutional Network for Overlap-Aware Speaker Diarization	Jun 26, 2023	ClusteringCommunity Detection	—Unverified
Implicit spoken language diarization	Jun 22, 2023	Language ModelingLanguage Modelling	—Unverified
Lexical Speaker Error Correction: Leveraging Language Models for Speaker Diarization Error Correction	Jun 15, 2023	Automatic Speech RecognitionAutomatic Speech Recognition (ASR)	—Unverified
Multi-microphone Automatic Speech Segmentation in Meetings Based on Circular Harmonics Features	Jun 7, 2023	Action DetectionActivity Detection	—Unverified
An Experimental Review of Speaker Diarization methods with application to Two-Speaker Conversational Telephone Speech recordings	May 29, 2023	Clusteringspeaker-diarization	—Unverified
Multi-Stream Extension of Variational Bayesian HMM Clustering (MS-VBx) for Combined End-to-End and Vector Clustering-based Diarization	May 23, 2023	Clusteringspeaker-diarization	—Unverified
Exploring Speaker-Related Information in Spoken Language Understanding for Better Speaker Diarization	May 22, 2023	speaker-diarizationSpeaker Diarization	—Unverified
Towards Robust Family-Infant Audio Analysis Based on Unsupervised Pretraining of Wav2vec 2.0 on Large-Scale Unlabeled Family Audio	May 21, 2023	speaker-diarizationSpeaker Diarization	—Unverified
Neural Diarization with Non-autoregressive Intermediate Attractors	Mar 13, 2023	Decoderspeaker-diarization	—Unverified
TOLD: A Novel Two-Stage Overlap-Aware Framework for Speaker Diarization	Mar 8, 2023	speaker-diarizationSpeaker Diarization	—Unverified
Improving Transformer-based End-to-End Speaker Diarization by Assigning Auxiliary Losses to Attention Heads	Mar 2, 2023	Action DetectionActivity Detection	—Unverified
DISPLACE Challenge: DIarization of SPeaker and LAnguage in Conversational Environments	Mar 1, 2023	speaker-diarizationSpeaker Diarization	—Unverified
Supervised Hierarchical Clustering using Graph Neural Networks for Speaker Diarization	Feb 24, 2023	ClusteringGraph Clustering	CodeCode Available
A Reinforcement Learning Framework for Online Speaker Diarization	Feb 21, 2023	Decision MakingDomain Adaptation	—Unverified
Towards Measuring and Scoring Speaker Diarization Fairness	Feb 20, 2023	FairnessSentence	—Unverified
The Newsbridge -Telecom SudParis VoxCeleb Speaker Recognition Challenge 2022 System Description	Jan 17, 2023	Action DetectionActivity Detection	—Unverified
Late Audio-Visual Fusion for In-The-Wild Speaker Diarization	Nov 2, 2022	speaker-diarizationSpeaker Diarization	—Unverified
A Comparative Study on Multichannel Speaker-Attributed Automatic Speech Recognition in Multi-party Meetings	Nov 1, 2022	Automatic Speech RecognitionAutomatic Speech Recognition (ASR)	—Unverified
DiaCorrect: End-to-end error correction for speaker diarization	Oct 31, 2022	Automatic Speech RecognitionAutomatic Speech Recognition (ASR)	CodeCode Available
Target-Speaker Voice Activity Detection via Sequence-to-Sequence Prediction	Oct 28, 2022	Action DetectionActivity Detection	—Unverified
On Out-of-Distribution Detection for Audio with Deep Nearest Neighbors	Oct 27, 2022	Automatic Speech RecognitionAutomatic Speech Recognition (ASR)	CodeCode Available
Privacy-preserving Automatic Speaker Diarization	Oct 26, 2022	Privacy Preservingspeaker-diarization	—Unverified
TSUP Speaker Diarization System for Conversational Short-phrase Speaker Diarization Challenge	Oct 26, 2022	Action DetectionActivity Detection	—Unverified
Mutual Learning of Single- and Multi-Channel End-to-End Neural Diarization	Oct 7, 2022	Knowledge Distillationspeaker-diarization	—Unverified
Spatial-aware Speaker Diarization for Multi-channel Multi-party Meeting	Sep 24, 2022	speaker-diarizationSpeaker Diarization	—Unverified
Target Speaker Voice Activity Detection with Transformers and Its Integration with End-to-End Neural Diarization	Aug 27, 2022	Action DetectionActivity Detection	—Unverified
Chronological Self-Training for Real-Time Speaker Diarization	Aug 5, 2022	speaker-diarizationSpeaker Diarization	—Unverified
Unsupervised Speaker Diarization that is Agnostic to Language, Overlap-Aware, and Tuning Free	Jul 25, 2022	speaker-diarizationSpeaker Diarization	—Unverified
Online Target Speaker Voice Activity Detection for Speaker Diarization	Jul 13, 2022	Action DetectionActivity Detection	—Unverified
Speaker Diarization and Identification from Single-Channel Classroom Audio Recording Using Virtual Microphones	Jul 1, 2022	speaker-diarizationSpeaker Diarization	—Unverified
Interrelate Training and Searching: A Unified Online Clustering Framework for Speaker Diarization	Jun 28, 2022	ClusteringOnline Clustering	—Unverified
Simultaneous Speech Extraction for Multiple Target Speakers under the Meeting Scenarios	Jun 17, 2022	Action DetectionActivity Detection	—Unverified
Audio-video fusion strategies for active speaker detection in meetings	Jun 9, 2022	Active Speaker DetectionManagement	—Unverified
Online Neural Diarization of Unlimited Numbers of Speakers Using Global and Local Attractors	Jun 6, 2022	Multi-Label ClassificationMUlTI-LABEL-ClASSIFICATION	—Unverified
Bazinga! A Dataset for Multi-Party Dialogues Structuring	Jun 1, 2022	Entity LinkingPunctuation Restoration	—Unverified
A Semi-Automatic Approach to Create Large Gender- and Age-Balanced Speaker Corpora: Usefulness of Speaker Diarization & Identification.	Jun 1, 2022	speaker-diarizationSpeaker Diarization	—Unverified
Bi-LSTM Scoring Based Similarity Measurement with Agglomerative Hierarchical Clustering (AHC) for Speaker Diarization	May 19, 2022	Clusteringspeaker-diarization	—Unverified
Reformulating Speaker Diarization as Community Detection With Emphasis On Topological Structure	Apr 26, 2022	ClusteringCommunity Detection	—Unverified
Self-supervised Speaker Diarization	Apr 8, 2022	speaker-diarizationSpeaker Diarization	—Unverified
Multimodal Clustering with Role Induced Constraints for Speaker Diarization	Apr 1, 2022	Clusteringspeaker-diarization	—Unverified
EEND-SS: Joint End-to-End Neural Speaker Diarization and Speech Separation for Flexible Number of Speakers	Mar 31, 2022	Decoderspeaker-diarization	—Unverified

Show:10 25 50

← PrevPage 4 of 7Next →

All datasets CALLHOME NIST-SRE 2000 AMI Lapel AMI MixHeadset CH109 DIHARD ETAPE AMI CALLHOME-109 AliMeeting DIHARD II Hub5'00 CallHome

Benchmark Results

#	Model	Metric	Claimed	Verified	Status
1	COS+NJW-SC (Oracle SAD)	DER(%)	24.05	—	Unverified
2	EEND	DER(%)	23.07	—	Unverified
3	COS+AHC (Oracle SAD)	DER(%)	21.13	—	Unverified
4	SA-EEND (2-spk, no-adapt)	DER(%)	12.66	—	Unverified
5	EEND-OLA	DER(%)	12.57	—	Unverified
6	SA-EEND (2-spk, adapted)	DER(%)	10.76	—	Unverified
7	TOLD	DER(%)	10.14	—	Unverified
8	COS+B-SC (Oracle SAD)	DER(ig olp)	8.78	—	Unverified
9	PLDA+AHC (Oracle SAD)	DER(ig olp)	8.39	—	Unverified
10	COS+NME-SC (Oracle SAD)	DER(ig olp)	7.29	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	x-vector (PLDA + AHC)	DER(%)	8.39	—	Unverified
2	TitaNet-L (NME-SC)	DER(%)	6.73	—	Unverified
3	TitaNet-M (NME-SC)	DER(%)	6.47	—	Unverified
4	TitaNet-S (NME-SC)	DER(%)	6.37	—	Unverified
5	x-vector (MCGAN)	DER(%)	5.73	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	ECAPA (SC)	DER(%)	2.36	—	Unverified
2	TitaNet-L (NME-SC)	DER(%)	2.03	—	Unverified
3	TitaNet-S (NME-SC)	DER(%)	2	—	Unverified
4	TitaNet-M (NME-SC)	DER(%)	1.99	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	TitaNet-S (NME-SC)	DER(%)	2.22	—	Unverified
2	TitaNet-M (NME-SC)	DER(%)	1.79	—	Unverified
3	ECAPA (SC)	DER(%)	1.78	—	Unverified
4	TitaNet-L (NME-SC)	DER(%)	1.73	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	x-vector (PLDA + AHC)	DER(%)	9.72	—	Unverified
2	TitaNet-L (NME-SC)	DER(%)	1.19	—	Unverified
3	TitaNet-M (NME-SC)	DER(%)	1.13	—	Unverified
4	TitaNet-S (NME-SC)	DER(%)	1.11	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	Baseline (the best result in the literature as of Oct.2019)	DER(%)	11.2	—	Unverified
2	pyannote (MFCC)	DER(%)	10.5	—	Unverified
3	pyannote (waveform)	DER(%)	9.9	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	Baseline	DER(%)	7.7	—	Unverified
2	pyannote (MFCC)	DER(%)	5.6	—	Unverified
3	pyannote (waveform)	DER(%)	4.9	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	pyannote (MFCC)	DER(%)	6.3	—	Unverified
2	pyannote (waveform)	DER(%)	6	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	d-vector + spectral	DER(%)	12.54	—	Unverified
2	titanet-s	DER(%)	1.11	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	SOND	DER(%)	4.46	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	UIS-RNN-SML	DER(%)	27.3	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	UIS-RNN	V	10.6	—	Unverified