Speaker Identification

Papers

Recently Added Most Hyped Most Active Needs Verification Most Verified

Showing 26–50 of 248 papers

Title	Date	Tasks	Status	Hype
A Modulation-Domain Loss for Neural-Network-based Real-time Speech Enhancement	Feb 15, 2021	Speaker IdentificationSpeech Denoising	CodeCode Available	1
Generative Pre-Training for Speech with Autoregressive Predictive Coding	Oct 23, 2019	Representation LearningSpeaker Identification	CodeCode Available	1
Whisper Speaker Identification: Leveraging Pre-Trained Multilingual Transformers for Robust Speaker Embeddings	Mar 13, 2025	Speaker Identificationspeech-recognition	CodeCode Available	1
Blind Speech Separation and Dereverberation using Neural Beamforming	Mar 24, 2021	Speaker IdentificationSpeaker Separation	CodeCode Available	1
End-to-End Chinese Speaker Identification	Jul 1, 2022	coreference-resolutionCoreference Resolution	CodeCode Available	1
Extended U-Net for Speaker Verification in Noisy Environments	Jun 27, 2022	DenoisingSpeaker Identification	CodeCode Available	1
GIFT: Graph-Induced Fine-Tuning for Multi-Party Conversation Understanding	May 16, 2023	Speaker Identification	CodeCode Available	1
FastAudio: A Learnable Audio Front-End for Spoof Speech Detection	Sep 6, 2021	Speaker IdentificationSpeaker Verification	CodeCode Available	1
FoolHD: Fooling speaker identification by Highly imperceptible adversarial Disturbances	Nov 17, 2020	Adversarial AttackSpeaker Identification	CodeCode Available	1
Improving speaker discrimination of target speech extraction with time-domain SpeakerBeam	Jan 23, 2020	Speaker IdentificationSpeech Extraction	CodeCode Available	1
IndicSUPERB: A Speech Processing Universal Performance Benchmark for Indian languages	Aug 24, 2022	Automatic Speech RecognitionAutomatic Speech Recognition (ASR)	CodeCode Available	1
ComiCap: A VLMs pipeline for dense captioning of Comic Panels	Sep 24, 2024	AttributeDense Captioning	CodeCode Available	1
CoMix: A Comprehensive Benchmark for Multi-Task Comic Understanding	Jul 4, 2024	Dialogue Generationobject-detection	CodeCode Available	1
Masked Autoencoders that Listen	Jul 13, 2022	Audio ClassificationDecoder	CodeCode Available	1
MelHuBERT: A simplified HuBERT on Mel spectrograms	Nov 17, 2022	Automatic Speech RecognitionSelf-Supervised Learning	CodeCode Available	1
ASiT: Local-Global Audio Spectrogram vIsion Transformer for Event Classification	Nov 23, 2022	Keyword SpottingSelf-Supervised Learning	CodeCode Available	1
Minimum Bayes Risk Training for End-to-End Speaker-Attributed ASR	Nov 3, 2020	Automatic Speech RecognitionAutomatic Speech Recognition (ASR)	CodeCode Available	1
Non-uniform Speaker Disentanglement For Depression Detection From Raw Speech Signals	Jun 2, 2023	Depression DetectionDisentanglement	CodeCode Available	1
Learning Speaker Representations with Mutual Information	Dec 1, 2018	SentenceSpeaker Identification	CodeCode Available	1
A user study to compare two conversational assistants designed for people with hearing impairments	Jun 1, 2019	Automatic Speech RecognitionAutomatic Speech Recognition (ASR)	—Unverified	0
Advances in Online Audio-Visual Meeting Transcription	Dec 10, 2019	Sound Source Localizationspeaker-diarization	—Unverified	0
A Multi Level Data Fusion Approach for Speaker Identification on Telephone Speech	Jun 27, 2014	Speaker Identification	—Unverified	0
Adaptive blind audio source extraction supervised by dominant speaker identification using x-vectors	Oct 25, 2019	Speaker Identification	—Unverified	0
Efficiency-oriented approaches for self-supervised speech representation learning	Dec 18, 2023	Automatic Speech RecognitionRepresentation Learning	—Unverified	0
Advanced Rich Transcription System for Estonian Speech	Jan 11, 2019	Speaker Identification	—Unverified	0

Show:10 25 50

← PrevPage 2 of 10Next →

All datasets VoxCeleb1 EVI en-GB EVI fr-FR EVI pl-PL

Benchmark Results

#	Model	Metric	Claimed	Verified	Status
1	MSM-MAE	Top-1 (%)	96.6	—	Unverified
2	M2D/0.6	Top-1 (%)	96.5	—	Unverified
3	M2D/0.7	Top-1 (%)	96.3	—	Unverified
4	M2D ratio=0.6	Top-1 (%)	94.8	—	Unverified
5	AudioMAE (local)	Top-1 (%)	94.8	—	Unverified
6	ATST Base (ours)	Top-1 (%)	94.3	—	Unverified
7	AudioMAE (global)	Top-1 (%)	94.1	—	Unverified
8	AutoSpeech (N=8,C=128)	Top-1 (%)	87.66	—	Unverified
9	SSAST-FRAME	Top-1 (%)	80.8	—	Unverified
10	SSAMBA	Top-1 (%)	70.1	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	Fuzzy Retrieval	Top-1 (%)	67.77	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	Fuzzy Retrieval	Top-1 (%)	80.83	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	Fuzzy Retrieval	Top-1 (%)	95.13	—	Unverified