Speaker Identification

Papers

Recently Added Most Hyped Most Active Needs Verification Most Verified

Showing 1–50 of 248 papers

Title	Date	Tasks	Status	Hype	Score
PaddleSpeech: An Easy-to-Use All-in-One Speech Toolkit	May 20, 2022	AllAutomatic Speech Recognition (ASR)	CodeCode Available	6	5
VoxBlink2: A 100K+ Speaker Recognition Corpus and the Open-Set Speaker-Identification Benchmark	Jul 16, 2024	DiversitySpeaker Identification	CodeCode Available	5	5
audino: A Modern Annotation Tool for Audio and Speech	Jun 9, 2020	Action DetectionActivity Detection	CodeCode Available	2	5
SSAST: Self-Supervised Audio Spectrogram Transformer	Oct 19, 2021	Audio ClassificationClassification	CodeCode Available	2	5
SSAMBA: Self-Supervised Audio Representation Learning with Mamba State Space Model	May 20, 2024	Audio ClassificationGPU	CodeCode Available	2	5
InstructERC: Reforming Emotion Recognition in Conversation with Multi-task Retrieval-Augmented Large Language Models	Sep 21, 2023	Emotion RecognitionEmotion Recognition in Conversation	CodeCode Available	1	5
Learning Speaker Representations with Mutual Information	Dec 1, 2018	SentenceSpeaker Identification	CodeCode Available	1	5
Investigation of End-To-End Speaker-Attributed ASR for Continuous Multi-Talker Recordings	Aug 11, 2020	Automatic Speech RecognitionAutomatic Speech Recognition (ASR)	CodeCode Available	1	5
UniSpeech-SAT: Universal Speech Representation Learning with Speaker Aware Pre-Training	Oct 12, 2021	Data AugmentationMulti-Task Learning	CodeCode Available	1	5
SpeechT5: Unified-Modal Encoder-Decoder Pre-Training for Spoken Language Processing	Oct 14, 2021	Automatic Speech RecognitionAutomatic Speech Recognition (ASR)	CodeCode Available	1	5
Minimum Bayes Risk Training for End-to-End Speaker-Attributed ASR	Nov 3, 2020	Automatic Speech RecognitionAutomatic Speech Recognition (ASR)	CodeCode Available	1	5
Masked Autoencoders that Listen	Jul 13, 2022	Audio ClassificationDecoder	CodeCode Available	1	5
Non-uniform Speaker Disentanglement For Depression Detection From Raw Speech Signals	Jun 2, 2023	Depression DetectionDisentanglement	CodeCode Available	1	5
AM-MobileNet1D: A Portable Model for Speaker Recognition	Mar 31, 2020	Deep Learningmodel	CodeCode Available	1	5
Streaming Speaker-Attributed ASR with Token-Level Speaker Embeddings	Mar 30, 2022	Automatic Speech RecognitionAutomatic Speech Recognition (ASR)	CodeCode Available	1	5
FastAudio: A Learnable Audio Front-End for Spoof Speech Detection	Sep 6, 2021	Speaker IdentificationSpeaker Verification	CodeCode Available	1	5
Speaker Recognition from Raw Waveform with SincNet	Jul 29, 2018	Speaker IdentificationSpeaker Recognition	CodeCode Available	1	5
Speech2Phone: A Novel and Efficient Method for Training Speaker Recognition Models	Feb 25, 2020	Speaker IdentificationSpeaker Recognition	CodeCode Available	1	5
GIFT: Graph-Induced Fine-Tuning for Multi-Party Conversation Understanding	May 16, 2023	Speaker Identification	CodeCode Available	1	5
ASiT: Local-Global Audio Spectrogram vIsion Transformer for Event Classification	Nov 23, 2022	Keyword SpottingSelf-Supervised Learning	CodeCode Available	1	5
Sum-Product Networks for Robust Automatic Speaker Identification	Aug 13, 2020	Automatic Speech RecognitionAutomatic Speech Recognition (ASR)	CodeCode Available	1	5
Supervised Speech Representation Learning for Parkinson's Disease Classification	Jun 1, 2021	ClassificationRepresentation Learning	CodeCode Available	1	5
Meta-Learning for Short Utterance Speaker Recognition with Imbalance Length Pairs	Apr 6, 2020	Meta-LearningSpeaker Identification	CodeCode Available	1	5
MelHuBERT: A simplified HuBERT on Mel spectrograms	Nov 17, 2022	Automatic Speech RecognitionSelf-Supervised Learning	CodeCode Available	1	5
ATST: Audio Representation Learning with Teacher-Student Transformer	Apr 26, 2022	Audio ClassificationInstrument Recognition	CodeCode Available	1	5
A Modulation-Domain Loss for Neural-Network-based Real-time Speech Enhancement	Feb 15, 2021	Speaker IdentificationSpeech Denoising	CodeCode Available	1	5
End-to-End Chinese Speaker Identification	Jul 1, 2022	coreference-resolutionCoreference Resolution	CodeCode Available	1	5
MPC-BERT: A Pre-Trained Language Model for Multi-Party Conversation Understanding	Jun 3, 2021	Conversational Response SelectionLanguage Modeling	CodeCode Available	1	5
MPCHAT: Towards Multimodal Persona-Grounded Conversation	May 27, 2023	Speaker Identification	CodeCode Available	1	5
AutoSpeech: Neural Architecture Search for Speaker Recognition	May 7, 2020	image-classificationImage Classification	CodeCode Available	1	5
Deep Discriminative Feature Learning for Accent Recognition	Nov 25, 2020	Face RecognitionSpeaker Identification	CodeCode Available	1	5
Blind Speech Separation and Dereverberation using Neural Beamforming	Mar 24, 2021	Speaker IdentificationSpeaker Separation	CodeCode Available	1	5
Learning Audio-Visual Dereverberation	Jun 14, 2021	Automatic Speech RecognitionAutomatic Speech Recognition (ASR)	CodeCode Available	1	5
Disentangling Textual and Acoustic Features of Neural Speech Representations	Oct 3, 2024	DisentanglementEmotion Recognition	CodeCode Available	1	5
Extended U-Net for Speaker Verification in Noisy Environments	Jun 27, 2022	DenoisingSpeaker Identification	CodeCode Available	1	5
FoolHD: Fooling speaker identification by Highly imperceptible adversarial Disturbances	Nov 17, 2020	Adversarial AttackSpeaker Identification	CodeCode Available	1	5
ComiCap: A VLMs pipeline for dense captioning of Comic Panels	Sep 24, 2024	AttributeDense Captioning	CodeCode Available	1	5
CoMix: A Comprehensive Benchmark for Multi-Task Comic Understanding	Jul 4, 2024	Dialogue Generationobject-detection	CodeCode Available	1	5
SLUE: New Benchmark Tasks for Spoken Language Understanding Evaluation on Natural Speech	Nov 19, 2021	Automatic Speech RecognitionAutomatic Speech Recognition (ASR)	CodeCode Available	1	5
Generative Pre-Training for Speech with Autoregressive Predictive Coding	Oct 23, 2019	Representation LearningSpeaker Identification	CodeCode Available	1	5
Speech Resynthesis from Discrete Disentangled Self-Supervised Representations	Apr 1, 2021	DisentanglementRepresentation Learning	CodeCode Available	1	5
Whisper Speaker Identification: Leveraging Pre-Trained Multilingual Transformers for Robust Speaker Embeddings	Mar 13, 2025	Speaker Identificationspeech-recognition	CodeCode Available	1	5
IndicSUPERB: A Speech Processing Universal Performance Benchmark for Indian languages	Aug 24, 2022	Automatic Speech RecognitionAutomatic Speech Recognition (ASR)	CodeCode Available	1	5
Improving speaker discrimination of target speech extraction with time-domain SpeakerBeam	Jan 23, 2020	Speaker IdentificationSpeech Extraction	CodeCode Available	1	5
An Effective Transformer-based Contextual Model and Temporal Gate Pooling for Speaker Identification	Aug 22, 2023	Self-Supervised LearningSpeaker Identification	CodeCode Available	0	5
Audio ALBERT: A Lite BERT for Self-supervised Learning of Audio Representation	May 18, 2020	Self-Supervised LearningSpeaker Identification	CodeCode Available	0	5
Attention-based multi-task learning for speech-enhancement and speaker-identification in multi-speaker dialogue scenario	Jan 7, 2021	Multi-Task LearningSpeaker Identification	CodeCode Available	0	5
Cross-Lingual Speaker Identification Using Distant Supervision	Oct 11, 2022	Language ModelingLanguage Modelling	CodeCode Available	0	5
On Learning Associations of Faces and Voices	May 15, 2018	Speaker Identification	CodeCode Available	0	5
Contrastive Learning of General-Purpose Audio Representations	Oct 21, 2020	CoLAContrastive Learning	CodeCode Available	0	5

Show:10 25 50

← PrevPage 1 of 5Next →

All datasets VoxCeleb1 EVI en-GB EVI fr-FR EVI pl-PL

Benchmark Results

#	Model	Metric	Claimed	Verified	Status
1	MSM-MAE	Top-1 (%)	96.6	—	Unverified
2	M2D/0.6	Top-1 (%)	96.5	—	Unverified
3	M2D/0.7	Top-1 (%)	96.3	—	Unverified
4	M2D ratio=0.6	Top-1 (%)	94.8	—	Unverified
5	AudioMAE (local)	Top-1 (%)	94.8	—	Unverified
6	ATST Base (ours)	Top-1 (%)	94.3	—	Unverified
7	AudioMAE (global)	Top-1 (%)	94.1	—	Unverified
8	AutoSpeech (N=8,C=128)	Top-1 (%)	87.66	—	Unverified
9	SSAST-FRAME	Top-1 (%)	80.8	—	Unverified
10	SSAMBA	Top-1 (%)	70.1	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	Fuzzy Retrieval	Top-1 (%)	67.77	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	Fuzzy Retrieval	Top-1 (%)	80.83	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	Fuzzy Retrieval	Top-1 (%)	95.13	—	Unverified