Target Speaker Extraction

Extract the dialogue content of the specified target in a multi-person dialogue.

Papers

Recently Added Most Hyped Most Active Needs Verification Most Verified

Showing 1–25 of 55 papers

Title	Date	Tasks	Status	Hype	Score
Metis: A Foundation Speech Generation Model with Masked Generative Pre-training	Feb 5, 2025	Self-Supervised LearningSpeech Enhancement	CodeCode Available	9	5
WeSep: A Scalable and Flexible Toolkit Towards Generalizable Target Speaker Extraction	Sep 24, 2024	Managementspeech-recognition	CodeCode Available	3	5
Multi-Level Speaker Representation for Target Speaker Extraction	Oct 21, 2024	Target Speaker Extraction	CodeCode Available	3	5
TSELM: Target Speaker Extraction using Discrete Tokens and Language Models	Sep 12, 2024	Audio GenerationTarget Speaker Extraction	CodeCode Available	2	5
LauraTSE: Target Speaker Extraction using Auto-Regressive Decoder-Only Language Models	Apr 10, 2025	DecoderLanguage Modeling	CodeCode Available	1	5
L-SpEx: Localized Target Speaker Extraction	Feb 21, 2022	Target Speaker Extraction	CodeCode Available	1	5
Muse: Multi-modal target speaker extraction with visual cues	Oct 15, 2020	Target Speaker Extraction	CodeCode Available	1	5
Selective Listening by Synchronizing Speech with Lips	Jun 14, 2021	Lip ReadingTarget Speaker Extraction	CodeCode Available	1	5
Audio-Visual Target Speaker Extraction with Reverse Selective Auditory Attention	Apr 29, 2024	Target Speaker Extraction	CodeCode Available	1	5
Typing to Listen at the Cocktail Party: Text-Guided Target Speaker Extraction	Oct 11, 2023	Language ModellingLarge Language Model	CodeCode Available	1	5
AV-CrossNet: an Audiovisual Complex Spectral Mapping Network for Speech Separation By Leveraging Narrow- and Cross-Band Modeling	Jun 17, 2024	Speaker SeparationSpeech Enhancement	CodeCode Available	1	5
RTFS-Net: Recurrent Time-Frequency Modelling for Efficient Audio-Visual Speech Separation	Sep 29, 2023	Audio-Visual Speech Recognitionspeech-recognition	CodeCode Available	1	5
GPU-accelerated Guided Source Separation for Meeting Transcription	Dec 10, 2022	blind source separationCPU	CodeCode Available	1	5
Target Speaker Verification with Selective Auditory Attention for Single and Multi-talker Speech	Mar 30, 2021	Multi-Task LearningSpeaker Verification	CodeCode Available	1	5
A Hybrid Continuity Loss to Reduce Over-Suppression for Time-domain Target Speaker Extraction	Mar 31, 2022	Automatic Speech RecognitionAutomatic Speech Recognition (ASR)	CodeCode Available	1	5
USEF-TSE: Universal Speaker Embedding Free Target Speaker Extraction	Sep 4, 2024	Speaker RecognitionSpeech Separation	CodeCode Available	1	5
M3ANet: Multi-scale and Multi-Modal Alignment Network for Brain-Assisted Target Speaker Extraction	May 31, 2025	Contrastive LearningEEG	CodeCode Available	0	5
Spectron: Target Speaker Extraction using Conditional Transformer with Adversarial Refinement	Sep 2, 2024	Target Speaker Extraction	CodeCode Available	0	5
ImagineNET: Target Speaker Extraction with Intermittent Visual Cue through Embedding Inpainting	Oct 31, 2022	Target Speaker Extraction	CodeCode Available	0	5
FlowTSE: Target Speaker Extraction with Flow Matching	May 20, 2025	Target Speaker Extraction	—Unverified	0	0
Exploiting spatial information with the informed complex-valued spatial autoencoder for target speaker extraction	Oct 27, 2022	PositionTarget Speaker Extraction	—Unverified	0	0
Beamformer-Guided Target Speaker Extraction	Mar 15, 2023	Target Speaker Extraction	—Unverified	0	0
ExARN: self-attending RNN for target speaker extraction	Dec 2, 2022	Speaker IdentificationTarget Speaker Extraction	—Unverified	0	0
Enhancing Real-World Active Speaker Detection with Multi-Modal Extraction Pre-Training	Apr 1, 2024	Active Speaker DetectionAudio-Visual Active Speaker Detection	—Unverified	0	0
AnyEnhance: A Unified Generative Model with Prompt-Guidance and Self-Critic for Voice Enhancement	Jan 26, 2025	DenoisingIn-Context Learning	—Unverified	0	0

Show:10 25 50

← PrevPage 1 of 3Next →

No leaderboard results yet.