Speech Separation

The task of extracting all overlapping speech sources in a given mixed speech signal refers to the Speech Separation. Speech Separation is a special scenario of source separation problem, where the focus is only on the overlapping speech signal sources and other interferences such as music or noise signals are not the main concern of the study. A recent representative Github project can be referred to ClearerVoice-Studio.

Source: A Unified Framework for Speech Separation

Image credit: Speech Separation of A Target Speaker Based on Deep Neural Networks

Papers

Recently Added Most Hyped Most Active Needs Verification Most Verified

Showing 101–150 of 359 papers

Title	Date	Tasks	Status
DNN driven Speaker Independent Audio-Visual Mask Estimation for Speech Separation	Jul 31, 2018	Speech Separation	—Unverified
Dual-Path Modeling for Long Recording Speech Separation in Meetings	Feb 23, 2021	Speech Separation	—Unverified
A Comparative Study of Modular and Joint Approaches for Speaker-Attributed ASR on Monaural Long-Form Audio	Jul 6, 2021	Automatic Speech RecognitionAutomatic Speech Recognition (ASR)	—Unverified
DualSep: A Light-weight dual-encoder convolutional recurrent network for real-time in-car speech separation	Sep 13, 2024	CPUSpeech Separation	—Unverified
Dynamic Slimmable Networks for Efficient Speech Separation	Jul 8, 2025	Speech Separation	—Unverified
EDSep: An Effective Diffusion-Based Method for Speech Source Separation	Jan 27, 2025	Speech Separation	—Unverified
EEG-informed attended speaker extraction from recorded speech mixtures with application in neuro-steered hearing prostheses	Feb 18, 2016	DenoisingEEG	—Unverified
EEND-SS: Joint End-to-End Neural Speaker Diarization and Speech Separation for Flexible Number of Speakers	Mar 31, 2022	Decoderspeaker-diarization	—Unverified
Universal Sound Separation	May 8, 2019	Speech EnhancementSpeech Separation	—Unverified
Effects of Dataset Sampling Rate for Noise Cancellation through Deep Learning	May 30, 2024	Speech Separation	—Unverified
Leveraging Real Conversational Data for Multi-Channel Continuous Speech Separation	Apr 7, 2022	Speech Separation	—Unverified
Locate and Beamform: Two-dimensional Locating All-neural Beamformer for Multi-channel Speech Separation	May 18, 2023	AllSpeech Separation	—Unverified
BERT for Joint Multichannel Speech Dereverberation with Spatial-aware Tasks	Oct 21, 2020	Speech DereverberationSpeech Enhancement	—Unverified
Endpoint Detection for Streaming End-to-End Multi-talker ASR	Jan 24, 2022	Sentencespeech-recognition	—Unverified
An Experimental Review of Speaker Diarization methods with application to Two-Speaker Conversational Telephone Speech recordings	May 29, 2023	Clusteringspeaker-diarization	—Unverified
End-to-End Integration of Speech Separation and Voice Activity Detection for Low-Latency Diarization of Telephone Conversations	Mar 21, 2023	Action DetectionActivity Detection	—Unverified
Discriminative Learning for Monaural Speech Separation Using Deep Embedding Features	Jul 23, 2019	ClusteringDeep Clustering	—Unverified
End-to-End Monaural Multi-speaker ASR System without Pretraining	Nov 5, 2018	Automatic Speech RecognitionAutomatic Speech Recognition (ASR)	—Unverified
End-to-End Multi-Channel Speech Separation	May 15, 2019	Speech Separation	—Unverified
End-to-end Networks for Supervised Single-channel Speech Separation	Oct 5, 2018	Speech Separation	—Unverified
Discretization and Re-synthesis: an alternative method to solve the Cocktail Party Problem	Dec 17, 2021	regressionSpeech Separation	—Unverified
End-to-end training of time domain audio separation and recognition	Dec 18, 2019	Speaker Recognitionspeech-recognition	—Unverified
Enhanced Deep Speech Separation in Clustered Ad Hoc Distributed Microphone Environments	Jun 14, 2024	Deep LearningSpeech Separation	—Unverified
Enhanced Neural Beamformer with Spatial Information for Target Speech Extraction	Jun 28, 2023	Dimensionality ReductionSpeech Extraction	—Unverified
AmbiSep: Ambisonic-to-Ambisonic Reverberant Speech Separation Using Transformer Networks	Jun 13, 2022	Speech Separation	—Unverified
Directed Speech Separation for Automatic Speech Recognition of Long Form Conversational Speech	Dec 10, 2021	Automatic Speech RecognitionAutomatic Speech Recognition (ASR)	—Unverified
Diffusion-based Signal Refiner for Speech Separation	May 10, 2023	DenoisingSpeech Enhancement	—Unverified
Demystifying TasNet: A Dissecting Approach	Nov 20, 2019	Speech Separation	—Unverified
A Unified Framework for Speech Separation	Dec 17, 2019	Speech Separation	—Unverified
Investigation of Practical Aspects of Single Channel Speech Separation for ASR	Jul 5, 2021	Automatic Speech RecognitionAutomatic Speech Recognition (ASR)	—Unverified
Deep Variational Generative Models for Audio-visual Speech Separation	Aug 17, 2020	Speech Separation	—Unverified
Audio-Visual Target Speaker Enhancement on Multi-Talker Environment using Event-Driven Cameras	Dec 5, 2019	Optical Flow EstimationSpeech Separation	—Unverified
Audio-visual Speech Separation with Adversarially Disentangled Visual Representation	Nov 29, 2020	Speech Separation	—Unverified
Deep neural network techniques for monaural speech enhancement: state of the art analysis	Dec 1, 2022	Art AnalysisImage Generation	—Unverified
Alternative Objective Functions for Deep Clustering	Apr 1, 2018	ClusteringDeep Clustering	—Unverified
Inter-channel Conv-TasNet for multichannel speech enhancement	Nov 8, 2021	Speech EnhancementSpeech Separation	—Unverified
Deep neural network Based Low-latency Speech Separation with Asymmetric analysis-Synthesis Window Pair	Jun 22, 2021	ClusteringDeep Clustering	—Unverified
Deep Neural Mel-Subband Beamformer for In-car Speech Separation	Nov 22, 2022	Speech Separation	—Unverified
Audio-Visual Speech Separation Using Cross-Modal Correspondence Loss	Mar 2, 2021	Speech Separation	—Unverified
Deep Learning for Joint Acoustic Echo and Acoustic Howling Suppression in Hybrid Meetings	May 2, 2023	Speech Separation	—Unverified
An End-to-end Architecture of Online Multi-channel Speech Separation	Sep 7, 2020	speech-recognitionSpeech Recognition	—Unverified
A Conformer-based ASR Frontend for Joint Acoustic Echo Cancellation, Speech Enhancement and Speech Separation	Nov 18, 2021	Acoustic echo cancellationAutomatic Speech Recognition	—Unverified
Investigating self-supervised learning for speech enhancement and separation	Mar 15, 2022	Self-Supervised LearningSpeech Enhancement	—Unverified
Joint Tensor Factorization and Outlying Slab Suppression with Applications	Jul 16, 2015	Speech Separation	—Unverified
Audio-visual speech separation based on joint feature representation with cross-modal attention	Mar 5, 2022	Optical Flow EstimationSpeech Separation	—Unverified
Sequential Multi-Frame Neural Beamforming for Speech Separation and Enhancement	Nov 18, 2019	Speaker SeparationSpeech Enhancement	—Unverified
Deep Clustering and Conventional Networks for Music Separation: Stronger Together	Nov 18, 2016	ClusteringDeep Clustering	—Unverified
Audio-Visual Speech Enhancement and Separation by Utilizing Multi-Modal Self-Supervised Embeddings	Oct 31, 2022	Automatic Speech RecognitionAutomatic Speech Recognition (ASR)	—Unverified
An Efficient Speech Separation Network Based on Recurrent Fusion Dilated Convolution and Channel Attention	Jun 9, 2023	Computational EfficiencyDecoder	—Unverified
A comprehensive study of speech separation: spectrogram vs waveform separation	May 17, 2019	speech-recognitionSpeech Recognition	—Unverified

Show:10 25 50

← PrevPage 3 of 8Next →

All datasets WSJ0-2mix WHAMR!Libri2Mix WSJ0-3mix LRS2 WHAM!WSJ0-5mix LRS3 VoxCeleb2 WSJ0-4mix Libri5Mix Libri10Mix

Benchmark Results

#	Model	Metric	Claimed	Verified	Status
1	TF-Locoformer (L) + DM	SI-SDRi	25.1	—	Unverified
2	SepReformer-L	SI-SDRi	25.1	—	Unverified
3	TF-Locoformer (M) + DM	SI-SDRi	24.6	—	Unverified
4	TF-Locoformer (L)	SI-SDRi	24.2	—	Unverified
5	MossFormer2 (L)	SI-SDRi	24.1	—	Unverified
6	SepTDA (L=12)	SI-SDRi	24	—	Unverified
7	Separate And Diffuse	SI-SDRi	23.9	—	Unverified
8	TF-Locoformer (M)	SI-SDRi	23.6	—	Unverified
9	MossFormer (L) + DM	SI-SDRi	22.8	—	Unverified
10	TF-Locoformer (S) + DM	SI-SDRi	22.8	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	TF-Locoformer (M)	SI-SDRi	18.5	—	Unverified
2	TF-Locoformer (S)	SI-SDRi	17.4	—	Unverified
3	SepReformer-L + DM	SI-SDRi	17.1	—	Unverified
4	MossFormer2	SI-SDRi	17	—	Unverified
5	MossFormer (L) + DM	SI-SDRi	16.3	—	Unverified
6	TD-Conformer (XL) + DM	SI-SDRi	14.6	—	Unverified
7	Improved Sudo rm -rf (U=36)	SI-SDRi	13.5	—	Unverified
8	TD-Conformer (L) + DM	SI-SDRi	13.4	—	Unverified
9	Wavesplit	SI-SDRi	13.2	—	Unverified
10	DPTNET - SRSSN	SI-SDRi	12.3	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	MossFormer2 (w speed perturb)	SI-SDRi	22.2	—	Unverified
2	TF-Locoformer (M)	SI-SDRi	22.1	—	Unverified
3	MossFormer2 (w/o DM)	SI-SDRi	21.7	—	Unverified
4	Separate And Diffuse	SI-SDRi	21.5	—	Unverified
5	WHYV	SI-SDRi	17.5	—	Unverified
6	TDANet Large	SI-SDRi	17.4	—	Unverified
7	TDANet	SI-SDRi	16.9	—	Unverified
8	Conv-Tasnet (Libri1Mix speech enhancement pre-trained)	SI-SDRi	14.1	—	Unverified
9	Conv-Tasnet (Libri1Mix speech enhancement multi-task)	SI-SDRi	13.7	—	Unverified
10	Conv-Tasnet	SI-SDRi	13.2	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	SepTDA	SI-SDRi	23.7	—	Unverified
2	MossFormer2	SI-SDRi	22.2	—	Unverified
3	MossFormer (L) + DM	SI-SDRi	21.2	—	Unverified
4	Separate And Diffuse	SI-SDRi	20.9	—	Unverified
5	MossFormer (M) + DM	SI-SDRi	20.8	—	Unverified
6	SepIt	SI-SDRi	20.1	—	Unverified
7	SepFormer	SI-SDRi	19.5	—	Unverified
8	Sandglasset	SI-SDRi	17.1	—	Unverified
9	Gated DualPathRNN	SI-SDRi	16.85	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	IIANet	SI-SNRi	16.4	—	Unverified
2	TDFNet-large	SI-SNRi	15.8	—	Unverified
3	TDFNet (MHSA + Shared)	SI-SNRi	15	—	Unverified
4	RTFS-Net-12	SI-SNRi	14.9	—	Unverified
5	RTFS-Net-6	SI-SNRi	14.6	—	Unverified
6	CTCNet	SI-SNRi	14.3	—	Unverified
7	RTFS-Net-4	SI-SNRi	14.1	—	Unverified
8	TDFNet-small	SI-SNRi	13.6	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	SepReformer-L + DM	SI-SDRi	18.4	—	Unverified
2	MossFormer2	SI-SDRi	18.1	—	Unverified
3	MossFormer (L) + DM	SI-SDRi	17.3	—	Unverified
4	TDANet Large	SI-SDRi	15.2	—	Unverified
5	TDANet	SI-SDRi	14.8	—	Unverified
6	WHYV	SI-SDRi	12.96	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	SepTDA	SI-SDRi	21	—	Unverified
2	Hungarian PIT	SI-SDRi	13.22	—	Unverified
3	Conditional TasNet	SI-SDRi	11.7	—	Unverified
4	TasTas	SI-SDRi	11.14	—	Unverified
5	Gated DualPathRNN	SI-SDRi	10.56	—	Unverified
6	Multi-Decoder DPRNN	SI-SDRi	5.9	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	IIANet	SI-SNRi	18.3	—	Unverified
2	RTFS-Net-12	SI-SNRi	17.5	—	Unverified
3	CTCNet	SI-SNRi	17.4	—	Unverified
4	RTFS-Net-6	SI-SNRi	16.9	—	Unverified
5	RTFS-Net-4	SI-SNRi	15.5	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	IIANet	SI-SNRi	14	—	Unverified
2	RTFS-Net-12	SI-SNRi	12.4	—	Unverified
3	CTCNet	SI-SNRi	11.9	—	Unverified
4	RTFS-Net-6	SI-SNRi	11.8	—	Unverified
5	RTFS-Net-4	SI-SNRi	11.5	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	SepTDA	SI-SDRi	22	—	Unverified
2	Gated DualPathRNN	SI-SDRi	12.88	—	Unverified
3	Conditional TasNet	SI-SDRi	12.5	—	Unverified
4	OR-PIT	SI-SDRi	10.2	—	Unverified
5	Multi-Decoder DPRNN	SI-SDRi	9.3	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	Separate And Diffuse	SI-SDRi	14.2	—	Unverified
2	SepIt	SI-SDRi	13.7	—	Unverified
3	OCD	SI-SDRi	13.4	—	Unverified
4	Hungarian PIT	SI-SDRi	12.72	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	Separate And Diffuse	SI-SDRi	9	—	Unverified
2	SepIt	SI-SDRi	8.2	—	Unverified
3	Hungarian PIT	SI-SDRi	7.78	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1		SDR	9.6	—	Unverified
2	Audio-Visual concat-ref	SDR	8.05	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	Separate And Diffuse	SI-SDRi	5.2	—	Unverified
2	Hungarian PIT	SI-SDRi	4.26	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	Conformer (base)	0S	5.6	—	Unverified
2	Conformer (large)	0S	5.4	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	Hungarian PIT	SI-SDRi	5.66	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	Audio-Visual concat-ref	SDR	10.55	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	MossFormer2	SI-SDRi	20.5	—	Unverified