Speech Separation

The task of extracting all overlapping speech sources in a given mixed speech signal refers to the Speech Separation. Speech Separation is a special scenario of source separation problem, where the focus is only on the overlapping speech signal sources and other interferences such as music or noise signals are not the main concern of the study. A recent representative Github project can be referred to ClearerVoice-Studio.

Source: A Unified Framework for Speech Separation

Image credit: Speech Separation of A Target Speaker Based on Deep Neural Networks

Papers

Recently Added Most Hyped Most Active Needs Verification Most Verified

Showing 301–350 of 359 papers

Title	Date	Tasks	Status
Short-Term Memory Convolutions	Feb 8, 2023	Acoustic Scene ClassificationScene Classification	—Unverified
Should We Always Separate?: Switching Between Enhanced and Observed Signals for Overlapping Speech Recognition	Jun 2, 2021	Automatic Speech RecognitionAutomatic Speech Recognition (ASR)	—Unverified
Simultaneous Denoising and Dereverberation Using Deep Embedding Features	Apr 6, 2020	ClusteringDeep Clustering	—Unverified
Simultaneous Speech Extraction for Multiple Target Speakers under the Meeting Scenarios	Jun 17, 2022	Action DetectionActivity Detection	—Unverified
Single-Channel Multi-talker Speech Recognition with Permutation Invariant Training	Jul 19, 2017	Automatic Speech RecognitionAutomatic Speech Recognition (ASR)	—Unverified
Single-channel speech separation using Soft-minimum Permutation Invariant Training	Nov 16, 2021	Speech Separation	—Unverified
Single-Channel Speech Separation with Auxiliary Speaker Embeddings	Jun 24, 2019	Speech Separation	—Unverified
Single-Channel Target Speech Extraction Utilizing Distance and Room Clues	May 20, 2025	Speech ExtractionSpeech Separation	—Unverified
Single-Microphone Speaker Separation and Voice Activity Detection in Noisy and Reverberant Environments	Jan 7, 2024	Action DetectionActivity Detection	—Unverified
SkiM: Skipping Memory LSTM for Low-Latency Real-Time Continuous Speech Separation	Jan 26, 2022	Speech Separation	—Unverified
Sound Signal Processing with Seq2Tree Network	May 1, 2018	Speech Separation	—Unverified
Sparsely Overlapped Speech Training in the Time Domain: Joint Learning of Target Speech Separation and Personal VAD Benefits	Jun 28, 2021	Speech Separation	—Unverified
Spatial and spectral deep attention fusion for multi-channel speech separation using deep embedding features	Feb 5, 2020	ClusteringDeep Attention	—Unverified
Spatially Selective Deep Non-linear Filters for Speaker Extraction	Nov 4, 2022	Speech Separation	—Unverified
Speakerfilter-Pro: an improved target speaker extractor combines the time domain and frequency domain	Oct 25, 2020	Speech Separation	—Unverified
Speaker-independent Speech Separation with Deep Attractor Network	Jul 12, 2017	Deep LearningSpeech Separation	—Unverified
Speech enhancement aided end-to-end multi-task learning for voice activity detection	Oct 23, 2020	Action DetectionActivity Detection	—Unverified
Speech Separation based on Contrastive Learning and Deep Modularization	May 18, 2023	Contrastive LearningSelf-Supervised Learning	—Unverified
Speech Separation using Neural Audio Codecs with Embedding Loss	Nov 27, 2024	Speech Separation	—Unverified
REAL-M: Towards Speech Separation on Real Mixtures	Oct 20, 2021	Open-Ended Question AnsweringSpeech Separation	CodeCode Available
Two-Step Sound Source Separation: Training on Learned Latent Targets	Oct 22, 2019	Speech SeparationVocal Bursts Valence Prediction	CodeCode Available
WHAM!: Extending Speech Separation to Noisy Environments	Jul 2, 2019	Speech Separation	CodeCode Available
Permutation Invariant Training of Deep Models for Speaker-Independent Multi-talker Speech Separation	Jul 1, 2016	ClusteringDeep Clustering	CodeCode Available
Disentangling the Impacts of Language and Channel Variability on Speech Separation Networks	Mar 30, 2022	Speech Separation	CodeCode Available
Interrupted and cascaded permutation invariant training for speech separation	Oct 28, 2019	Speech Separation	CodeCode Available
Deep Recurrent NMF for Speech Separation by Unfolding Iterative Thresholding	Sep 21, 2017	Speech Separation	CodeCode Available
Onssen: an open-source speech separation and enhancement library	Nov 3, 2019	Deep Clusteringspeech-recognition	CodeCode Available
Semi-Supervised Monaural Singing Voice Separation With a Masking Network Trained on Synthetic Mixtures	Dec 14, 2018	Music Source SeparationSpeech Separation	CodeCode Available
Deep learning for monaural speech separation	May 4, 2014	Deep LearningMulti-Speaker Source Separation	CodeCode Available
Speech Separation with Pretrained Frontend to Minimize Domain Mismatch	Nov 5, 2024	Speech Separation	CodeCode Available
Multi-talker Speech Separation with Utterance-level Permutation Invariant Training of Deep Recurrent Neural Networks	Mar 18, 2017	ClusteringDeep Clustering	CodeCode Available
Improving Voice Separation by Incorporating End-to-end Speech Recognition	Nov 29, 2019	Automatic Speech RecognitionAutomatic Speech Recognition (ASR)	CodeCode Available
SPGM: Prioritizing Local Features for enhanced speech separation performance	Sep 22, 2023	Speech Separation	CodeCode Available
Improved Speech Separation with Time-and-Frequency Cross-domain Joint Embedding and Clustering	Apr 16, 2019	ClusteringSpeech Separation	CodeCode Available
An enhanced Conv-TasNet model for speech separation using a speaker distance-based loss function	May 26, 2022	Speech Separation	CodeCode Available
Multi-Decoder DPRNN: High Accuracy Source Counting and Separation	Nov 24, 2020	DecoderSpeech Separation	CodeCode Available
Many-Speakers Single Channel Speech Separation with Optimal Permutation Training	Apr 18, 2021	Speech Separation	CodeCode Available
ADL-MVDR: All deep learning MVDR beamformer for target speech separation	Aug 16, 2020	AllSpeech Separation	CodeCode Available
Deep attractor network for single-microphone speaker separation	Nov 27, 2016	Speaker SeparationSpeech Separation	CodeCode Available
WPD++: An Improved Neural Beamformer for Simultaneous Speech Separation and Dereverberation	Nov 18, 2020	Automatic Speech RecognitionAutomatic Speech Recognition (ASR)	CodeCode Available
Complementing Handcrafted Features with Raw Waveform Using a Light-weight Auxiliary Model	Sep 6, 2021	speech-recognitionSpeech Recognition	CodeCode Available
Identify Speakers in Cocktail Parties with End-to-End Attention	May 22, 2020	Speaker IdentificationSpeech Separation	CodeCode Available
Singing Voice Separation with Deep U-Net Convolutional Networks	Oct 27, 2017	Speech SeparationTranslation	CodeCode Available
Looking to Listen at the Cocktail Party: A Speaker-Independent Audio-Visual Model for Speech Separation	Apr 10, 2018	Speech Separation	CodeCode Available
Unsupervised Deep Clustering for Source Separation: Direct Learning from Mixtures using Spatial Information	Nov 5, 2018	ClusteringDeep Clustering	CodeCode Available
Analyzing the impact of speaker localization errors on speech separation for automatic speech recognition	Oct 24, 2019	Automatic Speech RecognitionAutomatic Speech Recognition (ASR)	CodeCode Available
Deep Karaoke: Extracting Vocals from Musical Mixtures Using a Convolutional Deep Neural Network	Apr 17, 2015	Speech Separation	CodeCode Available
CasNet: Investigating Channel Robustness for Speech Separation	Oct 27, 2022	Speech Separation	CodeCode Available
Beyond Speaker Identity: Text Guided Target Speech Extraction	Jan 15, 2025	Speech ExtractionSpeech Separation	CodeCode Available
Filterbank design for end-to-end speech separation	Oct 23, 2019	Speaker RecognitionSpeech Separation	CodeCode Available

Show:10 25 50

← PrevPage 7 of 8Next →

All datasets WSJ0-2mix WHAMR!Libri2Mix WSJ0-3mix LRS2 WHAM!WSJ0-5mix LRS3 VoxCeleb2 WSJ0-4mix Libri5Mix Libri10Mix

Benchmark Results

#	Model	Metric	Claimed	Verified	Status
1	TF-Locoformer (L) + DM	SI-SDRi	25.1	—	Unverified
2	SepReformer-L	SI-SDRi	25.1	—	Unverified
3	TF-Locoformer (M) + DM	SI-SDRi	24.6	—	Unverified
4	TF-Locoformer (L)	SI-SDRi	24.2	—	Unverified
5	MossFormer2 (L)	SI-SDRi	24.1	—	Unverified
6	SepTDA (L=12)	SI-SDRi	24	—	Unverified
7	Separate And Diffuse	SI-SDRi	23.9	—	Unverified
8	TF-Locoformer (M)	SI-SDRi	23.6	—	Unverified
9	MossFormer (L) + DM	SI-SDRi	22.8	—	Unverified
10	TF-Locoformer (S) + DM	SI-SDRi	22.8	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	TF-Locoformer (M)	SI-SDRi	18.5	—	Unverified
2	TF-Locoformer (S)	SI-SDRi	17.4	—	Unverified
3	SepReformer-L + DM	SI-SDRi	17.1	—	Unverified
4	MossFormer2	SI-SDRi	17	—	Unverified
5	MossFormer (L) + DM	SI-SDRi	16.3	—	Unverified
6	TD-Conformer (XL) + DM	SI-SDRi	14.6	—	Unverified
7	Improved Sudo rm -rf (U=36)	SI-SDRi	13.5	—	Unverified
8	TD-Conformer (L) + DM	SI-SDRi	13.4	—	Unverified
9	Wavesplit	SI-SDRi	13.2	—	Unverified
10	DPTNET - SRSSN	SI-SDRi	12.3	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	MossFormer2 (w speed perturb)	SI-SDRi	22.2	—	Unverified
2	TF-Locoformer (M)	SI-SDRi	22.1	—	Unverified
3	MossFormer2 (w/o DM)	SI-SDRi	21.7	—	Unverified
4	Separate And Diffuse	SI-SDRi	21.5	—	Unverified
5	WHYV	SI-SDRi	17.5	—	Unverified
6	TDANet Large	SI-SDRi	17.4	—	Unverified
7	TDANet	SI-SDRi	16.9	—	Unverified
8	Conv-Tasnet (Libri1Mix speech enhancement pre-trained)	SI-SDRi	14.1	—	Unverified
9	Conv-Tasnet (Libri1Mix speech enhancement multi-task)	SI-SDRi	13.7	—	Unverified
10	Conv-Tasnet	SI-SDRi	13.2	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	SepTDA	SI-SDRi	23.7	—	Unverified
2	MossFormer2	SI-SDRi	22.2	—	Unverified
3	MossFormer (L) + DM	SI-SDRi	21.2	—	Unverified
4	Separate And Diffuse	SI-SDRi	20.9	—	Unverified
5	MossFormer (M) + DM	SI-SDRi	20.8	—	Unverified
6	SepIt	SI-SDRi	20.1	—	Unverified
7	SepFormer	SI-SDRi	19.5	—	Unverified
8	Sandglasset	SI-SDRi	17.1	—	Unverified
9	Gated DualPathRNN	SI-SDRi	16.85	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	IIANet	SI-SNRi	16.4	—	Unverified
2	TDFNet-large	SI-SNRi	15.8	—	Unverified
3	TDFNet (MHSA + Shared)	SI-SNRi	15	—	Unverified
4	RTFS-Net-12	SI-SNRi	14.9	—	Unverified
5	RTFS-Net-6	SI-SNRi	14.6	—	Unverified
6	CTCNet	SI-SNRi	14.3	—	Unverified
7	RTFS-Net-4	SI-SNRi	14.1	—	Unverified
8	TDFNet-small	SI-SNRi	13.6	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	SepReformer-L + DM	SI-SDRi	18.4	—	Unverified
2	MossFormer2	SI-SDRi	18.1	—	Unverified
3	MossFormer (L) + DM	SI-SDRi	17.3	—	Unverified
4	TDANet Large	SI-SDRi	15.2	—	Unverified
5	TDANet	SI-SDRi	14.8	—	Unverified
6	WHYV	SI-SDRi	12.96	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	SepTDA	SI-SDRi	21	—	Unverified
2	Hungarian PIT	SI-SDRi	13.22	—	Unverified
3	Conditional TasNet	SI-SDRi	11.7	—	Unverified
4	TasTas	SI-SDRi	11.14	—	Unverified
5	Gated DualPathRNN	SI-SDRi	10.56	—	Unverified
6	Multi-Decoder DPRNN	SI-SDRi	5.9	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	IIANet	SI-SNRi	18.3	—	Unverified
2	RTFS-Net-12	SI-SNRi	17.5	—	Unverified
3	CTCNet	SI-SNRi	17.4	—	Unverified
4	RTFS-Net-6	SI-SNRi	16.9	—	Unverified
5	RTFS-Net-4	SI-SNRi	15.5	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	IIANet	SI-SNRi	14	—	Unverified
2	RTFS-Net-12	SI-SNRi	12.4	—	Unverified
3	CTCNet	SI-SNRi	11.9	—	Unverified
4	RTFS-Net-6	SI-SNRi	11.8	—	Unverified
5	RTFS-Net-4	SI-SNRi	11.5	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	SepTDA	SI-SDRi	22	—	Unverified
2	Gated DualPathRNN	SI-SDRi	12.88	—	Unverified
3	Conditional TasNet	SI-SDRi	12.5	—	Unverified
4	OR-PIT	SI-SDRi	10.2	—	Unverified
5	Multi-Decoder DPRNN	SI-SDRi	9.3	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	Separate And Diffuse	SI-SDRi	14.2	—	Unverified
2	SepIt	SI-SDRi	13.7	—	Unverified
3	OCD	SI-SDRi	13.4	—	Unverified
4	Hungarian PIT	SI-SDRi	12.72	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	Separate And Diffuse	SI-SDRi	9	—	Unverified
2	SepIt	SI-SDRi	8.2	—	Unverified
3	Hungarian PIT	SI-SDRi	7.78	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1		SDR	9.6	—	Unverified
2	Audio-Visual concat-ref	SDR	8.05	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	Separate And Diffuse	SI-SDRi	5.2	—	Unverified
2	Hungarian PIT	SI-SDRi	4.26	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	Conformer (base)	0S	5.6	—	Unverified
2	Conformer (large)	0S	5.4	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	Hungarian PIT	SI-SDRi	5.66	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	Audio-Visual concat-ref	SDR	10.55	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	MossFormer2	SI-SDRi	20.5	—	Unverified