Speaker Identification

Papers

Recently Added Most Hyped Most Active Needs Verification Most Verified

Showing 1–25 of 248 papers

Title	Date	Tasks	Status	Hype
CoLMbo: Speaker Language Model for Descriptive Profiling	Jun 11, 2025	DescriptiveLanguage Modeling	CodeCode Available	0
Rhythm Features for Speaker Identification	Jun 7, 2025	Deep LearningRhythm	—Unverified	0
French Listening Tests for the Assessment of Intelligibility, Quality, and Identity of Body-Conducted Speech Enhancement	Jun 4, 2025	Bandwidth ExtensionSpeaker Identification	—Unverified	0
Speech Unlearning	Jun 1, 2025	Adversarial RobustnessKeyword Spotting	—Unverified	0
Pretraining Multi-Speaker Identification for Neural Speaker Diarization	May 30, 2025	speaker-diarizationSpeaker Diarization	—Unverified	0
REWIND: Speech Time Reversal for Enhancing Speaker Representations in Diffusion-based Voice Conversion	May 27, 2025	DisentanglementSpeaker Identification	—Unverified	0
HPP-Voice: A Large-Scale Evaluation of Speech Embeddings for Multi-Phenotypic Classification	May 22, 2025	speaker-diarizationSpeaker Diarization	—Unverified	0
Quantized Approximate Signal Processing (QASP): Towards Homomorphic Encryption for audio	May 15, 2025	Speaker Identificationspeech-recognition	—Unverified	0
From Dialect Gaps to Identity Maps: Tackling Variability in Speaker Verification	Apr 21, 2025	Data AugmentationSpeaker Identification	—Unverified	0
Speaker Fuzzy Fingerprints: Benchmarking Text-Based Identification in Multiparty Dialogues	Apr 21, 2025	BenchmarkingSpeaker Identification	—Unverified	0
Whisper Speaker Identification: Leveraging Pre-Trained Multilingual Transformers for Robust Speaker Embeddings	Mar 13, 2025	Speaker Identificationspeech-recognition	CodeCode Available	1
Speech-FT: Merging Pre-trained And Fine-Tuned Speech Representation Models For Cross-Task Generalization	Feb 18, 2025	Automatic Speech RecognitionSpeaker Identification	—Unverified	0
A Preliminary Exploration with GPT-4o Voice Mode	Feb 14, 2025	Age ClassificationAudio Deepfake Detection	—Unverified	0
SCDiar: a streaming diarization system based on speaker change detection and speech recognition	Jan 28, 2025	Change Detectionspeaker-diarization	—Unverified	0
Characteristic-Specific Partial Fine-Tuning for Efficient Emotion and Speaker Adaptation in Codec Language Text-to-Speech Models	Jan 24, 2025	Emotion ClassificationSpeaker Identification	—Unverified	0
PolInterviews -- A Dataset of German Politician Public Broadcast Interviews	Jan 8, 2025	Speaker Identification	—Unverified	0
Friends-MMC: A Dataset for Multi-modal Multi-party Conversation Understanding	Dec 23, 2024	Speaker Identification	CodeCode Available	0
Machine Unlearning reveals that the Gender-based Violence Victim Condition can be detected from Speech in a Speaker-Agnostic Setting	Nov 27, 2024	Machine UnlearningSpeaker Identification	—Unverified	0
Towards Speaker Identification with Minimal Dataset and Constrained Resources using 1D-Convolution Neural Network	Nov 22, 2024	Data AugmentationSpeaker Identification	CodeCode Available	0
Towards Advanced Speech Signal Processing: A Statistical Perspective on Convolution-Based Architectures and its Applications	Nov 20, 2024	Emotion RecognitionSpeaker Identification	—Unverified	0
Incorporating Talker Identity Aids With Improving Speech Recognition in Adversarial Environments	Oct 7, 2024	Speaker Identificationspeech-recognition	—Unverified	0
Disentangling Textual and Acoustic Features of Neural Speech Representations	Oct 3, 2024	DisentanglementEmotion Recognition	CodeCode Available	1
Enhancing Open-Set Speaker Identification through Rapid Tuning with Speaker Reciprocal Points and Negative Sample	Sep 24, 2024	Speaker IdentificationSpeaker Recognition	—Unverified	0
ComiCap: A VLMs pipeline for dense captioning of Comic Panels	Sep 24, 2024	AttributeDense Captioning	CodeCode Available	1
Exploring VQ-VAE with Prosody Parameters for Speaker Anonymization	Sep 24, 2024	DecoderSpeaker anonymization	—Unverified	0

Show:10 25 50

← PrevPage 1 of 10Next →

All datasets VoxCeleb1 EVI en-GB EVI fr-FR EVI pl-PL

Benchmark Results

#	Model	Metric	Claimed	Verified	Status
1	MSM-MAE	Top-1 (%)	96.6	—	Unverified
2	M2D/0.6	Top-1 (%)	96.5	—	Unverified
3	M2D/0.7	Top-1 (%)	96.3	—	Unverified
4	M2D ratio=0.6	Top-1 (%)	94.8	—	Unverified
5	AudioMAE (local)	Top-1 (%)	94.8	—	Unverified
6	ATST Base (ours)	Top-1 (%)	94.3	—	Unverified
7	AudioMAE (global)	Top-1 (%)	94.1	—	Unverified
8	AutoSpeech (N=8,C=128)	Top-1 (%)	87.66	—	Unverified
9	SSAST-FRAME	Top-1 (%)	80.8	—	Unverified
10	SSAMBA	Top-1 (%)	70.1	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	Fuzzy Retrieval	Top-1 (%)	67.77	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	Fuzzy Retrieval	Top-1 (%)	80.83	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	Fuzzy Retrieval	Top-1 (%)	95.13	—	Unverified