Speech Separation

The task of extracting all overlapping speech sources in a given mixed speech signal refers to the Speech Separation. Speech Separation is a special scenario of source separation problem, where the focus is only on the overlapping speech signal sources and other interferences such as music or noise signals are not the main concern of the study. A recent representative Github project can be referred to ClearerVoice-Studio.

Source: A Unified Framework for Speech Separation

Image credit: Speech Separation of A Target Speaker Based on Deep Neural Networks

Papers

Recently Added Most Hyped Most Active Needs Verification Most Verified

Showing 51–100 of 359 papers

Title	Date	Tasks	Status	Hype	Score
MESH2IR: Neural Acoustic Impulse Response Generator for Complex 3D Scenes	May 18, 2022	2kCPU	CodeCode Available	1	5
USEF-TSE: Universal Speaker Embedding Free Target Speaker Extraction	Sep 4, 2024	Speaker RecognitionSpeech Separation	CodeCode Available	1	5
WaveCRN: An Efficient Convolutional Recurrent Neural Network for End-to-end Speech Enhancement	Apr 6, 2020	DenoisingSpeech Denoising	CodeCode Available	1	5
SepMamba: State-space models for speaker separation using Mamba	Oct 28, 2024	MambaSpeaker Separation	CodeCode Available	1	5
Group Communication with Context Codec for Lightweight Source Separation	Dec 14, 2020	DecoderSpeech Enhancement	CodeCode Available	1	5
The Cone of Silence: Speech Separation by Localization	Oct 12, 2020	Audio Source SeparationSpeech Separation	CodeCode Available	1	5
Attention is All You Need in Speech Separation	Oct 25, 2020	AllSpeech Separation	CodeCode Available	1	5
End-to-end Microphone Permutation and Number Invariant Multi-channel Speech Separation	Oct 30, 2019	Speech Separation	CodeCode Available	1	5
A cappella: Audio-visual Singing Voice Separation	Apr 20, 2021	Music Source SeparationSpeech Separation	CodeCode Available	1	5
Dual-path RNN: efficient long sequence modeling for time-domain single-channel speech separation	Oct 14, 2019	Speech Separation	CodeCode Available	1	5
MossFormer: Pushing the Performance Limit of Monaural Speech Separation using Gated Single-Head Transformer with Convolution-Augmented Joint Self-Attentions	Feb 23, 2023	Speech Separation	CodeCode Available	1	5
Continuous speech separation: dataset and analysis	Jan 30, 2020	Automatic Speech RecognitionAutomatic Speech Recognition (ASR)	CodeCode Available	1	5
Towards Audio Codec-based Speech Separation	Jun 18, 2024	Edge-computingSpeech Separation	CodeCode Available	1	5
An Overview of Deep-Learning-Based Audio-Visual Speech Enhancement and Separation	Aug 21, 2020	Deep LearningSpeech Enhancement	CodeCode Available	1	5
Continuous Speech Separation with Conformer	Aug 13, 2020	Speech Separation	CodeCode Available	1	5
Effective Low-Cost Time-Domain Audio Separation Using Globally Attentive Locally Recurrent Networks	Jan 13, 2021	Speech Separation	CodeCode Available	1	5
An Audio-Visual Speech Separation Model Inspired by Cortico-Thalamo-Cortical Circuits	Dec 21, 2022	Speech Separation	CodeCode Available	1	5
Enhanced Reverberation as Supervision for Unsupervised Speech Separation	Aug 6, 2024	Speech Separation	CodeCode Available	1	5
Graph-PIT: Generalized permutation invariant training for continuous separation of arbitrary numbers of speakers	Jul 30, 2021	Speech Separation	CodeCode Available	1	5
GEV Beamforming Supported by DOA-based Masks Generated on Pairs of Microphones	May 19, 2020	speech-recognitionSpeech Recognition	CodeCode Available	1	5
Papez: Resource-Efficient Speech Separation with Auditory Working Memory	Jul 1, 2024	Speech Separation	CodeCode Available	1	5
Improving speaker discrimination of target speech extraction with time-domain SpeakerBeam	Jan 23, 2020	Speaker IdentificationSpeech Extraction	CodeCode Available	1	5
Unifying Speech Enhancement and Separation with Gradient Modulation for End-to-End Noise-Robust Speech Separation	Feb 22, 2023	Multi-Task LearningSpeech Enhancement	CodeCode Available	1	5
ArrayDPS: Unsupervised Blind Speech Separation with a Diffusion Prior	May 8, 2025	Room Impulse Response (RIR)Speech Separation	CodeCode Available	1	5
TasNet: time-domain audio separation network for real-time, single-channel speech separation	Nov 1, 2017	DecoderSpeech Separation	CodeCode Available	0	5
Complementing Handcrafted Features with Raw Waveform Using a Light-weight Auxiliary Model	Sep 6, 2021	speech-recognitionSpeech Recognition	CodeCode Available	0	5
Analysis of impact of emotions on target speech extraction and speech separation	Aug 15, 2022	Speaker VerificationSpeech Extraction	CodeCode Available	0	5
SPGM: Prioritizing Local Features for enhanced speech separation performance	Sep 22, 2023	Speech Separation	CodeCode Available	0	5
Speaker Extraction with Co-Speech Gestures Cue	Mar 31, 2022	Speech Separation	CodeCode Available	0	5
CasNet: Investigating Channel Robustness for Speech Separation	Oct 27, 2022	Speech Separation	CodeCode Available	0	5
ADL-MVDR: All deep learning MVDR beamformer for target speech separation	Aug 16, 2020	AllSpeech Separation	CodeCode Available	0	5
Speech Separation with Pretrained Frontend to Minimize Domain Mismatch	Nov 5, 2024	Speech Separation	CodeCode Available	0	5
A Multi-Phase Gammatone Filterbank for Speech Separation via TasNet	Oct 25, 2019	Low-latency processingSpeech Separation	CodeCode Available	0	5
Singing Voice Separation with Deep U-Net Convolutional Networks	Oct 27, 2017	Speech SeparationTranslation	CodeCode Available	0	5
Divide and Conquer: A Deep CASA Approach to Talker-independent Monaural Speaker Separation	Apr 25, 2019	ClusteringSpeaker Separation	CodeCode Available	0	5
Beyond Speaker Identity: Text Guided Target Speech Extraction	Jan 15, 2025	Speech ExtractionSpeech Separation	CodeCode Available	0	5
CSLNSpeech: solving extended speech separation problem with the help of Chinese sign language	Jul 21, 2020	Self-Supervised LearningSpeech Separation	CodeCode Available	0	5
Disentangling the Impacts of Language and Channel Variability on Speech Separation Networks	Mar 30, 2022	Speech Separation	CodeCode Available	0	5
Permutation Invariant Training of Deep Models for Speaker-Independent Multi-talker Speech Separation	Jul 1, 2016	ClusteringDeep Clustering	CodeCode Available	0	5
REAL-M: Towards Speech Separation on Real Mixtures	Oct 20, 2021	Open-Ended Question AnsweringSpeech Separation	CodeCode Available	0	5
Semi-Supervised Monaural Singing Voice Separation With a Masking Network Trained on Synthetic Mixtures	Dec 14, 2018	Music Source SeparationSpeech Separation	CodeCode Available	0	5
Deep Recurrent NMF for Speech Separation by Unfolding Iterative Thresholding	Sep 21, 2017	Speech Separation	CodeCode Available	0	5
An enhanced Conv-TasNet model for speech separation using a speaker distance-based loss function	May 26, 2022	Speech Separation	CodeCode Available	0	5
Onssen: an open-source speech separation and enhancement library	Nov 3, 2019	Deep Clusteringspeech-recognition	CodeCode Available	0	5
Multi-Decoder DPRNN: High Accuracy Source Counting and Separation	Nov 24, 2020	DecoderSpeech Separation	CodeCode Available	0	5
Multi-talker Speech Separation with Utterance-level Permutation Invariant Training of Deep Recurrent Neural Networks	Mar 18, 2017	ClusteringDeep Clustering	CodeCode Available	0	5
Deep learning for monaural speech separation	May 4, 2014	Deep LearningMulti-Speaker Source Separation	CodeCode Available	0	5
Deep Karaoke: Extracting Vocals from Musical Mixtures Using a Convolutional Deep Neural Network	Apr 17, 2015	Speech Separation	CodeCode Available	0	5
Looking to Listen at the Cocktail Party: A Speaker-Independent Audio-Visual Model for Speech Separation	Apr 10, 2018	Speech Separation	CodeCode Available	0	5
Deep attractor network for single-microphone speaker separation	Nov 27, 2016	Speaker SeparationSpeech Separation	CodeCode Available	0	5

Show:10 25 50

← PrevPage 2 of 8Next →

All datasets WSJ0-2mix WHAMR!Libri2Mix WSJ0-3mix LRS2 WHAM!WSJ0-5mix LRS3 VoxCeleb2 WSJ0-4mix Libri5Mix Libri10Mix

Benchmark Results

#	Model	Metric	Claimed	Verified	Status
1	TF-Locoformer (L) + DM	SI-SDRi	25.1	—	Unverified
2	SepReformer-L	SI-SDRi	25.1	—	Unverified
3	TF-Locoformer (M) + DM	SI-SDRi	24.6	—	Unverified
4	TF-Locoformer (L)	SI-SDRi	24.2	—	Unverified
5	MossFormer2 (L)	SI-SDRi	24.1	—	Unverified
6	SepTDA (L=12)	SI-SDRi	24	—	Unverified
7	Separate And Diffuse	SI-SDRi	23.9	—	Unverified
8	TF-Locoformer (M)	SI-SDRi	23.6	—	Unverified
9	MossFormer (L) + DM	SI-SDRi	22.8	—	Unverified
10	TF-Locoformer (S) + DM	SI-SDRi	22.8	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	TF-Locoformer (M)	SI-SDRi	18.5	—	Unverified
2	TF-Locoformer (S)	SI-SDRi	17.4	—	Unverified
3	SepReformer-L + DM	SI-SDRi	17.1	—	Unverified
4	MossFormer2	SI-SDRi	17	—	Unverified
5	MossFormer (L) + DM	SI-SDRi	16.3	—	Unverified
6	TD-Conformer (XL) + DM	SI-SDRi	14.6	—	Unverified
7	Improved Sudo rm -rf (U=36)	SI-SDRi	13.5	—	Unverified
8	TD-Conformer (L) + DM	SI-SDRi	13.4	—	Unverified
9	Wavesplit	SI-SDRi	13.2	—	Unverified
10	DPTNET - SRSSN	SI-SDRi	12.3	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	MossFormer2 (w speed perturb)	SI-SDRi	22.2	—	Unverified
2	TF-Locoformer (M)	SI-SDRi	22.1	—	Unverified
3	MossFormer2 (w/o DM)	SI-SDRi	21.7	—	Unverified
4	Separate And Diffuse	SI-SDRi	21.5	—	Unverified
5	WHYV	SI-SDRi	17.5	—	Unverified
6	TDANet Large	SI-SDRi	17.4	—	Unverified
7	TDANet	SI-SDRi	16.9	—	Unverified
8	Conv-Tasnet (Libri1Mix speech enhancement pre-trained)	SI-SDRi	14.1	—	Unverified
9	Conv-Tasnet (Libri1Mix speech enhancement multi-task)	SI-SDRi	13.7	—	Unverified
10	Conv-Tasnet	SI-SDRi	13.2	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	SepTDA	SI-SDRi	23.7	—	Unverified
2	MossFormer2	SI-SDRi	22.2	—	Unverified
3	MossFormer (L) + DM	SI-SDRi	21.2	—	Unverified
4	Separate And Diffuse	SI-SDRi	20.9	—	Unverified
5	MossFormer (M) + DM	SI-SDRi	20.8	—	Unverified
6	SepIt	SI-SDRi	20.1	—	Unverified
7	SepFormer	SI-SDRi	19.5	—	Unverified
8	Sandglasset	SI-SDRi	17.1	—	Unverified
9	Gated DualPathRNN	SI-SDRi	16.85	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	IIANet	SI-SNRi	16.4	—	Unverified
2	TDFNet-large	SI-SNRi	15.8	—	Unverified
3	TDFNet (MHSA + Shared)	SI-SNRi	15	—	Unverified
4	RTFS-Net-12	SI-SNRi	14.9	—	Unverified
5	RTFS-Net-6	SI-SNRi	14.6	—	Unverified
6	CTCNet	SI-SNRi	14.3	—	Unverified
7	RTFS-Net-4	SI-SNRi	14.1	—	Unverified
8	TDFNet-small	SI-SNRi	13.6	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	SepReformer-L + DM	SI-SDRi	18.4	—	Unverified
2	MossFormer2	SI-SDRi	18.1	—	Unverified
3	MossFormer (L) + DM	SI-SDRi	17.3	—	Unverified
4	TDANet Large	SI-SDRi	15.2	—	Unverified
5	TDANet	SI-SDRi	14.8	—	Unverified
6	WHYV	SI-SDRi	12.96	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	SepTDA	SI-SDRi	21	—	Unverified
2	Hungarian PIT	SI-SDRi	13.22	—	Unverified
3	Conditional TasNet	SI-SDRi	11.7	—	Unverified
4	TasTas	SI-SDRi	11.14	—	Unverified
5	Gated DualPathRNN	SI-SDRi	10.56	—	Unverified
6	Multi-Decoder DPRNN	SI-SDRi	5.9	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	IIANet	SI-SNRi	18.3	—	Unverified
2	RTFS-Net-12	SI-SNRi	17.5	—	Unverified
3	CTCNet	SI-SNRi	17.4	—	Unverified
4	RTFS-Net-6	SI-SNRi	16.9	—	Unverified
5	RTFS-Net-4	SI-SNRi	15.5	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	IIANet	SI-SNRi	14	—	Unverified
2	RTFS-Net-12	SI-SNRi	12.4	—	Unverified
3	CTCNet	SI-SNRi	11.9	—	Unverified
4	RTFS-Net-6	SI-SNRi	11.8	—	Unverified
5	RTFS-Net-4	SI-SNRi	11.5	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	SepTDA	SI-SDRi	22	—	Unverified
2	Gated DualPathRNN	SI-SDRi	12.88	—	Unverified
3	Conditional TasNet	SI-SDRi	12.5	—	Unverified
4	OR-PIT	SI-SDRi	10.2	—	Unverified
5	Multi-Decoder DPRNN	SI-SDRi	9.3	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	Separate And Diffuse	SI-SDRi	14.2	—	Unverified
2	SepIt	SI-SDRi	13.7	—	Unverified
3	OCD	SI-SDRi	13.4	—	Unverified
4	Hungarian PIT	SI-SDRi	12.72	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	Separate And Diffuse	SI-SDRi	9	—	Unverified
2	SepIt	SI-SDRi	8.2	—	Unverified
3	Hungarian PIT	SI-SDRi	7.78	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1		SDR	9.6	—	Unverified
2	Audio-Visual concat-ref	SDR	8.05	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	Separate And Diffuse	SI-SDRi	5.2	—	Unverified
2	Hungarian PIT	SI-SDRi	4.26	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	Conformer (base)	0S	5.6	—	Unverified
2	Conformer (large)	0S	5.4	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	Hungarian PIT	SI-SDRi	5.66	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	Audio-Visual concat-ref	SDR	10.55	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	MossFormer2	SI-SDRi	20.5	—	Unverified