Speech Separation

The task of extracting all overlapping speech sources in a given mixed speech signal refers to the Speech Separation. Speech Separation is a special scenario of source separation problem, where the focus is only on the overlapping speech signal sources and other interferences such as music or noise signals are not the main concern of the study. A recent representative Github project can be referred to ClearerVoice-Studio.

Source: A Unified Framework for Speech Separation

Image credit: Speech Separation of A Target Speaker Based on Deep Neural Networks

Papers

Recently Added Most Hyped Most Active Needs Verification Most Verified

Showing 151–200 of 359 papers

Title	Date	Tasks	Status
On End-to-end Multi-channel Time Domain Speech Separation in Reverberant Environments	Nov 11, 2020	speech-recognitionSpeech Recognition	—Unverified
Online Binaural Speech Separation of Moving Speakers With a Wavesplit Network	Mar 13, 2023	Online ClusteringSpeaker Separation	—Unverified
Exploring Self-Attention Mechanisms for Speech Separation	Feb 6, 2022	DenoisingSpeech Enhancement	—Unverified
Orthonormal Embedding-based Deep Clustering for Single-channel Speech Separation	Jan 15, 2019	ClusteringDeep Clustering	—Unverified
Parrotron: An End-to-End Speech-to-Speech Conversion Model and its Applications to Hearing-Impaired Speech and Speech Separation	Oct 29, 2019	Speech Separation	—Unverified
Passive Underwater Acoustic Signal Separation based on Feature Decoupling Dual-path Network	Apr 11, 2025	Speech Separation	—Unverified
Probabilistic Permutation Invariant Training for Speech Separation	Aug 4, 2019	Speech Separation	—Unverified
Probing Self-supervised Learning Models with Target Speech Extraction	Feb 17, 2024	Self-Supervised LearningSpeaker Identification	—Unverified
Progressive Joint Modeling in Unsupervised Single-channel Overlapped Speech Recognition	Jul 21, 2017	Automatic Speech RecognitionAutomatic Speech Recognition (ASR)	—Unverified
Progressive Tandem Learning for Pattern Recognition with Deep Spiking Neural Networks	Jul 2, 2020	Computational EfficiencyImage Reconstruction	—Unverified
Provable Subspace Identification Under Post-Nonlinear Mixtures	Oct 14, 2022	Causal DiscoverySpeech Separation	—Unverified
RadioSES: mmWave-Based Audioradio Speech Enhancement and Separation System	Apr 14, 2022	Speech EnhancementSpeech Separation	—Unverified
Reading to Listen at the Cocktail Party: Multi-Modal Speech Separation	Jan 2, 2025	SentenceSpeech Separation	—Unverified
Real-time Single-channel Dereverberation and Separation with Time-domainAudio Separation Network	Sep 2, 2018	DenoisingSpeech Dereverberation	—Unverified
Real-time Speech Enhancement and Separation with a Unified Deep Neural Network for Single/Dual Talker Scenarios	Oct 16, 2023	Speech EnhancementSpeech Separation	—Unverified
Recognizing Overlapped Speech in Meetings: A Multichannel Separation Approach Using Neural Networks	Oct 8, 2018	speech-recognitionSpeech Recognition	—Unverified
Recycling an anechoic pre-trained speech separation deep neural network for binaural dereverberation of a single source	Aug 9, 2022	Speech Separation	—Unverified
Remix-cycle-consistent Learning on Adversarially Learned Separator for Accurate and Stable Unsupervised Speech Separation	Mar 26, 2022	Speech Separation	—Unverified
Resource-constrained stereo singing voice cancellation	Jan 22, 2024	Music Source SeparationSpeech Separation	—Unverified
Resource-Efficient Separation Transformer	Jun 19, 2022	Speech Separation	—Unverified
Reverberation as Supervision for Speech Separation	Nov 15, 2022	Speech Separation	—Unverified
Robust Active Speaker Detection in Noisy Environments	Mar 27, 2024	Active Speaker DetectionSpeech Separation	—Unverified
Robustness of Speech Separation Models for Similar-pitch Speakers	Jul 22, 2024	speech-recognitionSpeech Recognition	—Unverified
Royalflush Speaker Diarization System for ICASSP 2022 Multi-channel Multi-party Meeting Transcription Challenge	Feb 10, 2022	speaker-diarizationSpeaker Diarization	—Unverified
X-TaSNet: Robust and Accurate Time-Domain Speaker Extraction Network	Oct 24, 2020	Speech Separation	—Unverified
A Comparative Study of Modular and Joint Approaches for Speaker-Attributed ASR on Monaural Long-Form Audio	Jul 6, 2021	Automatic Speech RecognitionAutomatic Speech Recognition (ASR)	—Unverified
A comprehensive study of speech separation: spectrogram vs waveform separation	May 17, 2019	speech-recognitionSpeech Recognition	—Unverified
A Conformer-based ASR Frontend for Joint Acoustic Echo Cancellation, Speech Enhancement and Speech Separation	Nov 18, 2021	Acoustic echo cancellationAutomatic Speech Recognition	—Unverified
Advances in Online Audio-Visual Meeting Transcription	Dec 10, 2019	Sound Source Localizationspeaker-diarization	—Unverified
All-neural beamformer for continuous speech separation	Oct 13, 2021	AllAutomatic Speech Recognition	—Unverified
Sequential Multi-Frame Neural Beamforming for Speech Separation and Enhancement	Nov 18, 2019	Speaker SeparationSpeech Enhancement	—Unverified
Alternative Objective Functions for Deep Clustering	Apr 1, 2018	ClusteringDeep Clustering	—Unverified
AmbiSep: Ambisonic-to-Ambisonic Reverberant Speech Separation Using Transformer Networks	Jun 13, 2022	Speech Separation	—Unverified
A Multi-Stage Triple-Path Method for Speech Separation in Noisy and Reverberant Environments	Mar 7, 2023	DenoisingSpeech Denoising	—Unverified
An Adapter based Multi-label Pre-training for Speech Separation and Enhancement	Nov 11, 2022	DenoisingPseudo Label	—Unverified
An Efficient Speech Separation Network Based on Recurrent Fusion Dilated Convolution and Channel Attention	Jun 9, 2023	Computational EfficiencyDecoder	—Unverified
An End-to-end Architecture of Online Multi-channel Speech Separation	Sep 7, 2020	speech-recognitionSpeech Recognition	—Unverified
An Experimental Review of Speaker Diarization methods with application to Two-Speaker Conversational Telephone Speech recordings	May 29, 2023	Clusteringspeaker-diarization	—Unverified
A Single Speech Enhancement Model Unifying Dereverberation, Denoising, Speaker Counting, Separation, and Extraction	Oct 12, 2023	DenoisingSpeech Enhancement	—Unverified
A Survey of Deep Learning for Complex Speech Spectrograms	May 13, 2025	Deep LearningSpeech Enhancement	—Unverified
Attractor-Based Speech Separation of Multiple Utterances by Unknown Number of Speakers	May 22, 2025	Speech Separation	—Unverified
AudioSlots: A slot-centric generative model for audio separation	May 9, 2023	blind source separationDecoder	—Unverified
Audio-Visual Approach For Multimodal Concurrent Speaker Detection	Jul 1, 2024	Multimodal Deep Learningspeaker-diarization	—Unverified
Audio-visual End-to-end Multi-channel Speech Separation, Dereverberation and Recognition	Jul 6, 2023	Speech DereverberationSpeech Enhancement	—Unverified
Audio-visual Multi-channel Integration and Recognition of Overlapped Speech	Nov 16, 2020	Automatic Speech RecognitionAutomatic Speech Recognition (ASR)	—Unverified
Audio-visual Multi-channel Recognition of Overlapped Speech	May 18, 2020	Automatic Speech RecognitionAutomatic Speech Recognition (ASR)	—Unverified
Audio-visual multi-channel speech separation, dereverberation and recognition	Apr 5, 2022	Automatic Speech RecognitionAutomatic Speech Recognition (ASR)	—Unverified
Audio-visual Recognition of Overlapped speech for the LRS2 dataset	Jan 6, 2020	Audio-Visual Speech RecognitionAutomatic Speech Recognition (ASR)	—Unverified
Audio-Visual Speech Enhancement and Separation by Utilizing Multi-Modal Self-Supervised Embeddings	Oct 31, 2022	Automatic Speech RecognitionAutomatic Speech Recognition (ASR)	—Unverified
Audio-visual speech separation based on joint feature representation with cross-modal attention	Mar 5, 2022	Optical Flow EstimationSpeech Separation	—Unverified

Show:10 25 50

← PrevPage 4 of 8Next →

All datasets WSJ0-2mix WHAMR!Libri2Mix WSJ0-3mix LRS2 WHAM!WSJ0-5mix LRS3 VoxCeleb2 WSJ0-4mix Libri5Mix Libri10Mix

Benchmark Results

#	Model	Metric	Claimed	Verified	Status
1	TF-Locoformer (L) + DM	SI-SDRi	25.1	—	Unverified
2	SepReformer-L	SI-SDRi	25.1	—	Unverified
3	TF-Locoformer (M) + DM	SI-SDRi	24.6	—	Unverified
4	TF-Locoformer (L)	SI-SDRi	24.2	—	Unverified
5	MossFormer2 (L)	SI-SDRi	24.1	—	Unverified
6	SepTDA (L=12)	SI-SDRi	24	—	Unverified
7	Separate And Diffuse	SI-SDRi	23.9	—	Unverified
8	TF-Locoformer (M)	SI-SDRi	23.6	—	Unverified
9	MossFormer (L) + DM	SI-SDRi	22.8	—	Unverified
10	TF-Locoformer (S) + DM	SI-SDRi	22.8	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	TF-Locoformer (M)	SI-SDRi	18.5	—	Unverified
2	TF-Locoformer (S)	SI-SDRi	17.4	—	Unverified
3	SepReformer-L + DM	SI-SDRi	17.1	—	Unverified
4	MossFormer2	SI-SDRi	17	—	Unverified
5	MossFormer (L) + DM	SI-SDRi	16.3	—	Unverified
6	TD-Conformer (XL) + DM	SI-SDRi	14.6	—	Unverified
7	Improved Sudo rm -rf (U=36)	SI-SDRi	13.5	—	Unverified
8	TD-Conformer (L) + DM	SI-SDRi	13.4	—	Unverified
9	Wavesplit	SI-SDRi	13.2	—	Unverified
10	DPTNET - SRSSN	SI-SDRi	12.3	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	MossFormer2 (w speed perturb)	SI-SDRi	22.2	—	Unverified
2	TF-Locoformer (M)	SI-SDRi	22.1	—	Unverified
3	MossFormer2 (w/o DM)	SI-SDRi	21.7	—	Unverified
4	Separate And Diffuse	SI-SDRi	21.5	—	Unverified
5	WHYV	SI-SDRi	17.5	—	Unverified
6	TDANet Large	SI-SDRi	17.4	—	Unverified
7	TDANet	SI-SDRi	16.9	—	Unverified
8	Conv-Tasnet (Libri1Mix speech enhancement pre-trained)	SI-SDRi	14.1	—	Unverified
9	Conv-Tasnet (Libri1Mix speech enhancement multi-task)	SI-SDRi	13.7	—	Unverified
10	Conv-Tasnet	SI-SDRi	13.2	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	SepTDA	SI-SDRi	23.7	—	Unverified
2	MossFormer2	SI-SDRi	22.2	—	Unverified
3	MossFormer (L) + DM	SI-SDRi	21.2	—	Unverified
4	Separate And Diffuse	SI-SDRi	20.9	—	Unverified
5	MossFormer (M) + DM	SI-SDRi	20.8	—	Unverified
6	SepIt	SI-SDRi	20.1	—	Unverified
7	SepFormer	SI-SDRi	19.5	—	Unverified
8	Sandglasset	SI-SDRi	17.1	—	Unverified
9	Gated DualPathRNN	SI-SDRi	16.85	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	IIANet	SI-SNRi	16.4	—	Unverified
2	TDFNet-large	SI-SNRi	15.8	—	Unverified
3	TDFNet (MHSA + Shared)	SI-SNRi	15	—	Unverified
4	RTFS-Net-12	SI-SNRi	14.9	—	Unverified
5	RTFS-Net-6	SI-SNRi	14.6	—	Unverified
6	CTCNet	SI-SNRi	14.3	—	Unverified
7	RTFS-Net-4	SI-SNRi	14.1	—	Unverified
8	TDFNet-small	SI-SNRi	13.6	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	SepReformer-L + DM	SI-SDRi	18.4	—	Unverified
2	MossFormer2	SI-SDRi	18.1	—	Unverified
3	MossFormer (L) + DM	SI-SDRi	17.3	—	Unverified
4	TDANet Large	SI-SDRi	15.2	—	Unverified
5	TDANet	SI-SDRi	14.8	—	Unverified
6	WHYV	SI-SDRi	12.96	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	SepTDA	SI-SDRi	21	—	Unverified
2	Hungarian PIT	SI-SDRi	13.22	—	Unverified
3	Conditional TasNet	SI-SDRi	11.7	—	Unverified
4	TasTas	SI-SDRi	11.14	—	Unverified
5	Gated DualPathRNN	SI-SDRi	10.56	—	Unverified
6	Multi-Decoder DPRNN	SI-SDRi	5.9	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	IIANet	SI-SNRi	18.3	—	Unverified
2	RTFS-Net-12	SI-SNRi	17.5	—	Unverified
3	CTCNet	SI-SNRi	17.4	—	Unverified
4	RTFS-Net-6	SI-SNRi	16.9	—	Unverified
5	RTFS-Net-4	SI-SNRi	15.5	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	IIANet	SI-SNRi	14	—	Unverified
2	RTFS-Net-12	SI-SNRi	12.4	—	Unverified
3	CTCNet	SI-SNRi	11.9	—	Unverified
4	RTFS-Net-6	SI-SNRi	11.8	—	Unverified
5	RTFS-Net-4	SI-SNRi	11.5	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	SepTDA	SI-SDRi	22	—	Unverified
2	Gated DualPathRNN	SI-SDRi	12.88	—	Unverified
3	Conditional TasNet	SI-SDRi	12.5	—	Unverified
4	OR-PIT	SI-SDRi	10.2	—	Unverified
5	Multi-Decoder DPRNN	SI-SDRi	9.3	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	Separate And Diffuse	SI-SDRi	14.2	—	Unverified
2	SepIt	SI-SDRi	13.7	—	Unverified
3	OCD	SI-SDRi	13.4	—	Unverified
4	Hungarian PIT	SI-SDRi	12.72	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	Separate And Diffuse	SI-SDRi	9	—	Unverified
2	SepIt	SI-SDRi	8.2	—	Unverified
3	Hungarian PIT	SI-SDRi	7.78	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1		SDR	9.6	—	Unverified
2	Audio-Visual concat-ref	SDR	8.05	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	Separate And Diffuse	SI-SDRi	5.2	—	Unverified
2	Hungarian PIT	SI-SDRi	4.26	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	Conformer (base)	0S	5.6	—	Unverified
2	Conformer (large)	0S	5.4	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	Hungarian PIT	SI-SDRi	5.66	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	Audio-Visual concat-ref	SDR	10.55	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	MossFormer2	SI-SDRi	20.5	—	Unverified