Speech Separation

The task of extracting all overlapping speech sources in a given mixed speech signal refers to the Speech Separation. Speech Separation is a special scenario of source separation problem, where the focus is only on the overlapping speech signal sources and other interferences such as music or noise signals are not the main concern of the study. A recent representative Github project can be referred to ClearerVoice-Studio.

Source: A Unified Framework for Speech Separation

Image credit: Speech Separation of A Target Speaker Based on Deep Neural Networks

Papers

Recently Added Most Hyped Most Active Needs Verification Most Verified

Showing 251–300 of 359 papers

Title	Date	Tasks	Status
Stepwise-Refining Speech Separation Network via Fine-Grained Encoding in High-order Latent Domain	Oct 10, 2021	speech-recognitionSpeech Recognition	—Unverified
Streaming Target-Speaker ASR with Neural Transducer	Sep 9, 2022	Automatic Speech RecognitionAutomatic Speech Recognition (ASR)	—Unverified
Streaming Multi-talker Speech Recognition with Joint Speaker Identification	Apr 5, 2021	Speaker Identificationspeech-recognition	—Unverified
Study of the Performance of CEEMDAN in Underdetermined Speech Separation	Nov 18, 2024	Audio Source SeparationSpeech Separation	—Unverified
Supervised Speech Separation Based on Deep Learning: An Overview	Aug 24, 2017	Deep LearningSpeaker Separation	—Unverified
Surrogate Source Model Learning for Determined Source Separation	Nov 11, 2020	modelSpeech Separation	—Unverified
SwinLip: An Efficient Visual Speech Encoder for Lip Reading Using Swin Transformer	May 7, 2025	Audio-Visual Speech RecognitionLip Reading	—Unverified
TalTech-IRIT-LIS Speaker and Language Diarization Systems for DISPLACE 2024	Jul 17, 2024	speaker-diarizationSpeaker Diarization	—Unverified
Target Confusion in End-to-end Speaker Extraction: Analysis and Approaches	Apr 4, 2022	blind source separationMetric Learning	—Unverified
Task-Aware Unified Source Separation	Oct 31, 2024	Audio Source SeparationMusic Source Separation	—Unverified
Teacher-Student MixIT for Unsupervised and Semi-supervised Speech Separation	Jun 15, 2021	Speech Separation	—Unverified
Temporal-Spatial Neural Filter: Direction Informed End-to-End Multi-channel Target Speech Separation	Jan 2, 2020	Speech Separation	—Unverified
Tensor-Train Long Short-Term Memory for Monaural Speech Enhancement	Dec 25, 2018	Speech EnhancementSpeech Separation	—Unverified
The fifth 'CHiME' Speech Separation and Recognition Challenge: Dataset, task and baselines	Mar 28, 2018	Automatic Speech RecognitionAutomatic Speech Recognition (ASR)	—Unverified
The RoyalFlush System of Speech Recognition for M2MeT Challenge	Feb 3, 2022	Automatic Speech RecognitionAutomatic Speech Recognition (ASR)	—Unverified
TIGER: Time-frequency Interleaved Gain Extraction and Reconstruction for Efficient Speech Separation	Oct 2, 2024	Speech Separation	—Unverified
Progressive Learning for Stabilizing Label Selection in Speech Separation with Mapping-based Method	Oct 20, 2021	Speech RecognitionSpeech Separation	—Unverified
Time-Domain Speech Extraction with Spatial Information and Multi Speaker Conditioning Mechanism	Feb 7, 2021	Speech Extractionspeech-recognition	—Unverified
Time-Frequency-Based Attention Cache Memory Model for Real-Time Speech Separation	May 19, 2025	Speech Separation	—Unverified
TokenSplit: Using Discrete Speech Representations for Direct, Refined, and Transcript-Conditioned Speech Separation and Recognition	Aug 21, 2023	Automatic Speech RecognitionAutomatic Speech Recognition (ASR)	—Unverified
Towards Listening to 10 People Simultaneously: An Efficient Permutation Invariant Training of Audio Source Separation Using Sinkhorn's Algorithm	Oct 22, 2020	Audio Source SeparationSpeech Separation	—Unverified
Towards Real-Time Single-Channel Speech Separation in Noisy and Reverberant Environments	Mar 14, 2023	DecoderSpeech Separation	—Unverified
Transcription-Free Fine-Tuning of Speech Separation Models for Noisy and Reverberant Multi-Speaker Automatic Speech Recognition	Jun 13, 2024	Automatic Speech RecognitionAutomatic Speech Recognition (ASR)	—Unverified
Tune-In: Training Under Negative Environments with Interference for Attention Networks Simulating Cocktail Party Effect	Mar 2, 2021	Speaker VerificationSpeech Separation	—Unverified
Ultra Fast Speech Separation Model with Teacher Student Learning	Apr 27, 2022	Computational EfficiencySpeech Separation	—Unverified
Ultra-Lightweight Speech Separation via Group Communication	Nov 18, 2020	QuantizationSpeech Enhancement	—Unverified
U-Mamba-Net: A highly efficient Mamba-based U-net style network for noisy and reverberant speech separation	Dec 24, 2024	feature selectionMamba	—Unverified
UNSSOR: Unsupervised Neural Speech Separation by Leveraging Over-determined Training Mixtures	May 31, 2023	Speaker SeparationSpeech Separation	—Unverified
Unsupervised Sound Separation Using Mixture Invariant Training	Jun 23, 2020	Domain AdaptationSpeech Enhancement	—Unverified
Using Optimal Ratio Mask as Training Target for Supervised Speech Separation	Sep 4, 2017	Speech Separation	—Unverified
USTC-NELSLIP System Description for DIHARD-III Challenge	Mar 19, 2021	Action DetectionActivity Detection	—Unverified
Utterance-level Permutation Invariant Training with Latency-controlled BLSTM for Single-channel Multi-talker Speech Separation	Dec 25, 2019	Speech Separation	—Unverified
VarArray: Array-Geometry-Agnostic Continuous Speech Separation	Oct 12, 2021	Speech Separation	—Unverified
VarArray Meets t-SOT: Advancing the State of the Art of Streaming Distant Conversational Speech Recognition	Sep 12, 2022	Automatic Speech RecognitionAutomatic Speech Recognition (ASR)	—Unverified
Wanna hear your voice? A sample is all we need!	Oct 1, 2024	AllSpeech Separation	—Unverified
Wavesplit: End-to-End Speech Separation by Speaker Clustering	Feb 20, 2020	ClusteringData Augmentation	—Unverified
X-DC: Explainable Deep Clustering based on Learnable Spectrogram Templates	Sep 18, 2020	ClusteringDeep Clustering	—Unverified
Universal Sound Separation	May 8, 2019	Speech EnhancementSpeech Separation	—Unverified
SATTS: Speaker Attractor Text to Speech, Learning to Speak by Learning to Separate	Jul 13, 2022	Speech Separationtext-to-speech	—Unverified
Scaling strategies for on-device low-complexity source separation with Conv-Tasnet	Mar 6, 2023	Speech Separation	—Unverified
SCA: Streaming Cross-attention Alignment for Echo Cancellation	Nov 1, 2022	Speech EnhancementSpeech Separation	—Unverified
Seeing Through the Conversation: Audio-Visual Speech Separation based on Diffusion Model	Oct 30, 2023	Speech Separation	—Unverified
Self-Remixing: Unsupervised Speech Separation via Separation and Remixing	Nov 18, 2022	Domain AdaptationSemi-supervised Domain Adaptation	—Unverified
SepALM: Audio Language Models Are Error Correctors for Robust Speech Separation	May 6, 2025	Automatic Speech RecognitionAutomatic Speech Recognition (ASR)	—Unverified
Separate And Diffuse: Using a Pretrained Diffusion Model for Improving Source Separation	Jan 25, 2023	Audio Source SeparationGeneralization Bounds	—Unverified
Separating Long-Form Speech with Group-Wise Permutation Invariant Training	Oct 27, 2021	FormSpeech Separation	—Unverified
Separation Guided Speaker Diarization in Realistic Mismatched Conditions	Jul 6, 2021	Clusteringspeaker-diarization	—Unverified
Separator-Transducer-Segmenter: Streaming Recognition and Segmentation of Multi-party Speech	May 10, 2022	Segmentationspeech-recognition	—Unverified
SepIt: Approaching a Single Channel Speech Separation Bound	May 24, 2022	Audio Source SeparationGeneralization Bounds	—Unverified
Sequence to Multi-Sequence Learning via Conditional Chain Mapping for Mixture Signals	Jun 25, 2020	speech-recognitionSpeech Recognition	—Unverified

Show:10 25 50

← PrevPage 6 of 8Next →

All datasets WSJ0-2mix WHAMR!Libri2Mix WSJ0-3mix LRS2 WHAM!WSJ0-5mix LRS3 VoxCeleb2 WSJ0-4mix Libri5Mix Libri10Mix

Benchmark Results

#	Model	Metric	Claimed	Verified	Status
1	TF-Locoformer (L) + DM	SI-SDRi	25.1	—	Unverified
2	SepReformer-L	SI-SDRi	25.1	—	Unverified
3	TF-Locoformer (M) + DM	SI-SDRi	24.6	—	Unverified
4	TF-Locoformer (L)	SI-SDRi	24.2	—	Unverified
5	MossFormer2 (L)	SI-SDRi	24.1	—	Unverified
6	SepTDA (L=12)	SI-SDRi	24	—	Unverified
7	Separate And Diffuse	SI-SDRi	23.9	—	Unverified
8	TF-Locoformer (M)	SI-SDRi	23.6	—	Unverified
9	MossFormer (L) + DM	SI-SDRi	22.8	—	Unverified
10	TF-Locoformer (S) + DM	SI-SDRi	22.8	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	TF-Locoformer (M)	SI-SDRi	18.5	—	Unverified
2	TF-Locoformer (S)	SI-SDRi	17.4	—	Unverified
3	SepReformer-L + DM	SI-SDRi	17.1	—	Unverified
4	MossFormer2	SI-SDRi	17	—	Unverified
5	MossFormer (L) + DM	SI-SDRi	16.3	—	Unverified
6	TD-Conformer (XL) + DM	SI-SDRi	14.6	—	Unverified
7	Improved Sudo rm -rf (U=36)	SI-SDRi	13.5	—	Unverified
8	TD-Conformer (L) + DM	SI-SDRi	13.4	—	Unverified
9	Wavesplit	SI-SDRi	13.2	—	Unverified
10	DPTNET - SRSSN	SI-SDRi	12.3	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	MossFormer2 (w speed perturb)	SI-SDRi	22.2	—	Unverified
2	TF-Locoformer (M)	SI-SDRi	22.1	—	Unverified
3	MossFormer2 (w/o DM)	SI-SDRi	21.7	—	Unverified
4	Separate And Diffuse	SI-SDRi	21.5	—	Unverified
5	WHYV	SI-SDRi	17.5	—	Unverified
6	TDANet Large	SI-SDRi	17.4	—	Unverified
7	TDANet	SI-SDRi	16.9	—	Unverified
8	Conv-Tasnet (Libri1Mix speech enhancement pre-trained)	SI-SDRi	14.1	—	Unverified
9	Conv-Tasnet (Libri1Mix speech enhancement multi-task)	SI-SDRi	13.7	—	Unverified
10	Conv-Tasnet	SI-SDRi	13.2	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	SepTDA	SI-SDRi	23.7	—	Unverified
2	MossFormer2	SI-SDRi	22.2	—	Unverified
3	MossFormer (L) + DM	SI-SDRi	21.2	—	Unverified
4	Separate And Diffuse	SI-SDRi	20.9	—	Unverified
5	MossFormer (M) + DM	SI-SDRi	20.8	—	Unverified
6	SepIt	SI-SDRi	20.1	—	Unverified
7	SepFormer	SI-SDRi	19.5	—	Unverified
8	Sandglasset	SI-SDRi	17.1	—	Unverified
9	Gated DualPathRNN	SI-SDRi	16.85	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	IIANet	SI-SNRi	16.4	—	Unverified
2	TDFNet-large	SI-SNRi	15.8	—	Unverified
3	TDFNet (MHSA + Shared)	SI-SNRi	15	—	Unverified
4	RTFS-Net-12	SI-SNRi	14.9	—	Unverified
5	RTFS-Net-6	SI-SNRi	14.6	—	Unverified
6	CTCNet	SI-SNRi	14.3	—	Unverified
7	RTFS-Net-4	SI-SNRi	14.1	—	Unverified
8	TDFNet-small	SI-SNRi	13.6	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	SepReformer-L + DM	SI-SDRi	18.4	—	Unverified
2	MossFormer2	SI-SDRi	18.1	—	Unverified
3	MossFormer (L) + DM	SI-SDRi	17.3	—	Unverified
4	TDANet Large	SI-SDRi	15.2	—	Unverified
5	TDANet	SI-SDRi	14.8	—	Unverified
6	WHYV	SI-SDRi	12.96	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	SepTDA	SI-SDRi	21	—	Unverified
2	Hungarian PIT	SI-SDRi	13.22	—	Unverified
3	Conditional TasNet	SI-SDRi	11.7	—	Unverified
4	TasTas	SI-SDRi	11.14	—	Unverified
5	Gated DualPathRNN	SI-SDRi	10.56	—	Unverified
6	Multi-Decoder DPRNN	SI-SDRi	5.9	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	IIANet	SI-SNRi	18.3	—	Unverified
2	RTFS-Net-12	SI-SNRi	17.5	—	Unverified
3	CTCNet	SI-SNRi	17.4	—	Unverified
4	RTFS-Net-6	SI-SNRi	16.9	—	Unverified
5	RTFS-Net-4	SI-SNRi	15.5	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	IIANet	SI-SNRi	14	—	Unverified
2	RTFS-Net-12	SI-SNRi	12.4	—	Unverified
3	CTCNet	SI-SNRi	11.9	—	Unverified
4	RTFS-Net-6	SI-SNRi	11.8	—	Unverified
5	RTFS-Net-4	SI-SNRi	11.5	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	SepTDA	SI-SDRi	22	—	Unverified
2	Gated DualPathRNN	SI-SDRi	12.88	—	Unverified
3	Conditional TasNet	SI-SDRi	12.5	—	Unverified
4	OR-PIT	SI-SDRi	10.2	—	Unverified
5	Multi-Decoder DPRNN	SI-SDRi	9.3	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	Separate And Diffuse	SI-SDRi	14.2	—	Unverified
2	SepIt	SI-SDRi	13.7	—	Unverified
3	OCD	SI-SDRi	13.4	—	Unverified
4	Hungarian PIT	SI-SDRi	12.72	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	Separate And Diffuse	SI-SDRi	9	—	Unverified
2	SepIt	SI-SDRi	8.2	—	Unverified
3	Hungarian PIT	SI-SDRi	7.78	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1		SDR	9.6	—	Unverified
2	Audio-Visual concat-ref	SDR	8.05	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	Separate And Diffuse	SI-SDRi	5.2	—	Unverified
2	Hungarian PIT	SI-SDRi	4.26	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	Conformer (base)	0S	5.6	—	Unverified
2	Conformer (large)	0S	5.4	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	Hungarian PIT	SI-SDRi	5.66	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	Audio-Visual concat-ref	SDR	10.55	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	MossFormer2	SI-SDRi	20.5	—	Unverified