Speech Separation

The task of extracting all overlapping speech sources in a given mixed speech signal refers to the Speech Separation. Speech Separation is a special scenario of source separation problem, where the focus is only on the overlapping speech signal sources and other interferences such as music or noise signals are not the main concern of the study. A recent representative Github project can be referred to ClearerVoice-Studio.

Source: A Unified Framework for Speech Separation

Image credit: Speech Separation of A Target Speaker Based on Deep Neural Networks

Papers

Recently Added Most Hyped Most Active Needs Verification Most Verified

Showing 1–50 of 359 papers

Title	Date	Tasks	Status	Hype	Score
Separate and Reconstruct: Asymmetric Encoder-Decoder for Speech Separation	Jun 10, 2024	ChunkingSpeech Separation	CodeCode Available	3	5
Conv-TasNet: Surpassing Ideal Time-Frequency Magnitude Masking for Speech Separation	Sep 20, 2018	Multi-task Audio Source SeperationMusic Source Separation	CodeCode Available	3	5
SPMamba: State-space model is all you need in speech separation	Apr 2, 2024	AllMamba	CodeCode Available	3	5
SoloSpeech: Enhancing Intelligibility and Quality in Target Speech Extraction through a Cascaded Generative Pipeline	May 25, 2025	Speech ExtractionSpeech Separation	CodeCode Available	3	5
SonicSim: A customizable simulation platform for speech processing in moving sound source scenarios	Oct 2, 2024	Speech EnhancementSpeech Separation	CodeCode Available	3	5
An efficient encoder-decoder architecture with top-down attention for speech separation	Sep 30, 2022	CPU	CodeCode Available	2	5
Dual-path Mamba: Short and Long-term Bidirectional Selective Structured State Space Models for Speech Separation	Mar 27, 2024	MambaSpeech Separation	CodeCode Available	2	5
CMGAN: Conformer-Based Metric-GAN for Monaural Speech Enhancement	Sep 22, 2022	Audio Super-ResolutionAutomatic Speech Recognition	CodeCode Available	2	5
Voice Separation with an Unknown Number of Multiple Speakers	Feb 29, 2020	Speech Separation	CodeCode Available	2	5
PixIT: Joint Training of Speaker Diarization and Speech Separation from Real-world Multi-speaker Recordings	Mar 4, 2024	Automatic Speech RecognitionAutomatic Speech Recognition (ASR)	CodeCode Available	2	5
Target Speaker ASR with Whisper	Sep 14, 2024	Speech Separation	CodeCode Available	2	5
Speech Slytherin: Examining the Performance and Efficiency of Mamba for Speech Separation, Recognition, and Synthesis	Jul 13, 2024	Mambaspeech-recognition	CodeCode Available	2	5
TF-Locoformer: Transformer with Local Modeling by Convolution for Speech Separation and Enhancement	Aug 6, 2024	Speech EnhancementSpeech Separation	CodeCode Available	2	5
IIANet: An Intra- and Inter-Modality Attention Network for Audio-Visual Speech Separation	Aug 16, 2023	Speech Separation	CodeCode Available	1	5
Graph-PIT: Generalized permutation invariant training for continuous separation of arbitrary numbers of speakers	Jul 30, 2021	Speech Separation	CodeCode Available	1	5
Stabilizing Label Assignment for Speech Separation by Self-supervised Pre-training	Oct 29, 2020	Speaker SeparationSpeech Enhancement	CodeCode Available	1	5
On Time Domain Conformer Models for Monaural Speech Separation in Noisy Reverberant Acoustic Environments	Oct 9, 2023	Computational EfficiencySpeech Separation	CodeCode Available	1	5
Enhanced Reverberation as Supervision for Unsupervised Speech Separation	Aug 6, 2024	Speech Separation	CodeCode Available	1	5
Improving speaker discrimination of target speech extraction with time-domain SpeakerBeam	Jan 23, 2020	Speaker IdentificationSpeech Extraction	CodeCode Available	1	5
RTFS-Net: Recurrent Time-Frequency Modelling for Efficient Audio-Visual Speech Separation	Sep 29, 2023	Audio-Visual Speech Recognitionspeech-recognition	CodeCode Available	1	5
Beam-Guided TasNet: An Iterative Speech Separation Framework with Multi-Channel Output	Feb 5, 2021	blind source separationSpeech Separation	CodeCode Available	1	5
Don't shoot butterfly with rifles: Multi-channel Continuous Speech Separation with Early Exit Transformer	Oct 23, 2020	Speech Separation	CodeCode Available	1	5
Annealed Multiple Choice Learning: Overcoming limitations of Winner-takes-all with annealing	Jul 22, 2024	AllDiversity	CodeCode Available	1	5
GEV Beamforming Supported by DOA-based Masks Generated on Pairs of Microphones	May 19, 2020	speech-recognitionSpeech Recognition	CodeCode Available	1	5
Dual-path RNN: efficient long sequence modeling for time-domain single-channel speech separation	Oct 14, 2019	Speech Separation	CodeCode Available	1	5
Papez: Resource-Efficient Speech Separation with Auditory Working Memory	Jul 1, 2024	Speech Separation	CodeCode Available	1	5
A Time-domain Real-valued Generalized Wiener Filter for Multi-channel Neural Separation Systems	Dec 7, 2021	Speech Separation	CodeCode Available	1	5
Attention is All You Need in Speech Separation	Oct 25, 2020	AllSpeech Separation	CodeCode Available	1	5
Sandglasset: A Light Multi-Granularity Self-attentive Network For Time-Domain Speech Separation	Mar 1, 2021	Computational EfficiencySpeech Separation	CodeCode Available	1	5
Group Communication with Context Codec for Lightweight Source Separation	Dec 14, 2020	DecoderSpeech Enhancement	CodeCode Available	1	5
Multi-Task Audio Source Separation	Jul 14, 2021	Audio Source SeparationMulti-task Audio Source Seperation	CodeCode Available	1	5
Directional Sparse Filtering using Weighted Lehmer Mean for Blind Separation of Unbalanced Speech Mixtures	Jan 30, 2021	Audio Source Separationblind source separation	CodeCode Available	1	5
Noise-robust Speech Separation with Fast Generative Correction	Jun 11, 2024	Speech Separation	CodeCode Available	1	5
OCD: Learning to Overfit with Conditional Diffusion Models	Oct 2, 2022	3D ReconstructionDenoising	CodeCode Available	1	5
Deep clustering: Discriminative embeddings for segmentation and separation	Aug 18, 2015	ClusteringDeep Clustering	CodeCode Available	1	5
MESH2IR: Neural Acoustic Impulse Response Generator for Complex 3D Scenes	May 18, 2022	2kCPU	CodeCode Available	1	5
MossFormer: Pushing the Performance Limit of Monaural Speech Separation using Gated Single-Head Transformer with Convolution-Augmented Joint Self-Attentions	Feb 23, 2023	Speech Separation	CodeCode Available	1	5
Continuous speech separation: dataset and analysis	Jan 30, 2020	Automatic Speech RecognitionAutomatic Speech Recognition (ASR)	CodeCode Available	1	5
Audio-Visual Speech Separation in Noisy Environments with a Lightweight Iterative Model	May 31, 2023	Speech Separation	CodeCode Available	1	5
Deformable Temporal Convolutional Networks for Monaural Noisy Reverberant Speech Separation	Oct 27, 2022	Speech DereverberationSpeech Separation	CodeCode Available	1	5
Distributed speech separation in spatially unconstrained microphone arrays	Nov 2, 2020	DiversitySpeech Separation	CodeCode Available	1	5
Effective Low-Cost Time-Domain Audio Separation Using Globally Attentive Locally Recurrent Networks	Jan 13, 2021	Speech Separation	CodeCode Available	1	5
A Neural State-Space Model Approach to Efficient Speech Separation	May 26, 2023	Representation LearningSpeech Separation	CodeCode Available	1	5
AV-CrossNet: an Audiovisual Complex Spectral Mapping Network for Speech Separation By Leveraging Narrow- and Cross-Band Modeling	Jun 17, 2024	Speaker SeparationSpeech Enhancement	CodeCode Available	1	5
Continuous Speech Separation with Conformer	Aug 13, 2020	Speech Separation	CodeCode Available	1	5
DPCCN: Densely-Connected Pyramid Complex Convolutional Network for Robust Speech Separation And Extraction	Dec 27, 2021	Speech ExtractionSpeech Separation	CodeCode Available	1	5
Independent Vector Analysis with Deep Neural Network Source Priors	Aug 23, 2020	Speech Separation	CodeCode Available	1	5
Blind Speech Separation and Dereverberation using Neural Beamforming	Mar 24, 2021	Speaker IdentificationSpeaker Separation	CodeCode Available	1	5
An Overview of Deep-Learning-Based Audio-Visual Speech Enhancement and Separation	Aug 21, 2020	Deep LearningSpeech Enhancement	CodeCode Available	1	5
An Audio-Visual Speech Separation Model Inspired by Cortico-Thalamo-Cortical Circuits	Dec 21, 2022	Speech Separation	CodeCode Available	1	5

Show:10 25 50

← PrevPage 1 of 8Next →

All datasets WSJ0-2mix WHAMR!Libri2Mix WSJ0-3mix LRS2 WHAM!WSJ0-5mix LRS3 VoxCeleb2 WSJ0-4mix Libri5Mix Libri10Mix

Benchmark Results

#	Model	Metric	Claimed	Verified	Status
1	TF-Locoformer (L) + DM	SI-SDRi	25.1	—	Unverified
2	SepReformer-L	SI-SDRi	25.1	—	Unverified
3	TF-Locoformer (M) + DM	SI-SDRi	24.6	—	Unverified
4	TF-Locoformer (L)	SI-SDRi	24.2	—	Unverified
5	MossFormer2 (L)	SI-SDRi	24.1	—	Unverified
6	SepTDA (L=12)	SI-SDRi	24	—	Unverified
7	Separate And Diffuse	SI-SDRi	23.9	—	Unverified
8	TF-Locoformer (M)	SI-SDRi	23.6	—	Unverified
9	MossFormer (L) + DM	SI-SDRi	22.8	—	Unverified
10	TF-Locoformer (S) + DM	SI-SDRi	22.8	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	TF-Locoformer (M)	SI-SDRi	18.5	—	Unverified
2	TF-Locoformer (S)	SI-SDRi	17.4	—	Unverified
3	SepReformer-L + DM	SI-SDRi	17.1	—	Unverified
4	MossFormer2	SI-SDRi	17	—	Unverified
5	MossFormer (L) + DM	SI-SDRi	16.3	—	Unverified
6	TD-Conformer (XL) + DM	SI-SDRi	14.6	—	Unverified
7	Improved Sudo rm -rf (U=36)	SI-SDRi	13.5	—	Unverified
8	TD-Conformer (L) + DM	SI-SDRi	13.4	—	Unverified
9	Wavesplit	SI-SDRi	13.2	—	Unverified
10	DPTNET - SRSSN	SI-SDRi	12.3	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	MossFormer2 (w speed perturb)	SI-SDRi	22.2	—	Unverified
2	TF-Locoformer (M)	SI-SDRi	22.1	—	Unverified
3	MossFormer2 (w/o DM)	SI-SDRi	21.7	—	Unverified
4	Separate And Diffuse	SI-SDRi	21.5	—	Unverified
5	WHYV	SI-SDRi	17.5	—	Unverified
6	TDANet Large	SI-SDRi	17.4	—	Unverified
7	TDANet	SI-SDRi	16.9	—	Unverified
8	Conv-Tasnet (Libri1Mix speech enhancement pre-trained)	SI-SDRi	14.1	—	Unverified
9	Conv-Tasnet (Libri1Mix speech enhancement multi-task)	SI-SDRi	13.7	—	Unverified
10	Conv-Tasnet	SI-SDRi	13.2	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	SepTDA	SI-SDRi	23.7	—	Unverified
2	MossFormer2	SI-SDRi	22.2	—	Unverified
3	MossFormer (L) + DM	SI-SDRi	21.2	—	Unverified
4	Separate And Diffuse	SI-SDRi	20.9	—	Unverified
5	MossFormer (M) + DM	SI-SDRi	20.8	—	Unverified
6	SepIt	SI-SDRi	20.1	—	Unverified
7	SepFormer	SI-SDRi	19.5	—	Unverified
8	Sandglasset	SI-SDRi	17.1	—	Unverified
9	Gated DualPathRNN	SI-SDRi	16.85	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	IIANet	SI-SNRi	16.4	—	Unverified
2	TDFNet-large	SI-SNRi	15.8	—	Unverified
3	TDFNet (MHSA + Shared)	SI-SNRi	15	—	Unverified
4	RTFS-Net-12	SI-SNRi	14.9	—	Unverified
5	RTFS-Net-6	SI-SNRi	14.6	—	Unverified
6	CTCNet	SI-SNRi	14.3	—	Unverified
7	RTFS-Net-4	SI-SNRi	14.1	—	Unverified
8	TDFNet-small	SI-SNRi	13.6	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	SepReformer-L + DM	SI-SDRi	18.4	—	Unverified
2	MossFormer2	SI-SDRi	18.1	—	Unverified
3	MossFormer (L) + DM	SI-SDRi	17.3	—	Unverified
4	TDANet Large	SI-SDRi	15.2	—	Unverified
5	TDANet	SI-SDRi	14.8	—	Unverified
6	WHYV	SI-SDRi	12.96	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	SepTDA	SI-SDRi	21	—	Unverified
2	Hungarian PIT	SI-SDRi	13.22	—	Unverified
3	Conditional TasNet	SI-SDRi	11.7	—	Unverified
4	TasTas	SI-SDRi	11.14	—	Unverified
5	Gated DualPathRNN	SI-SDRi	10.56	—	Unverified
6	Multi-Decoder DPRNN	SI-SDRi	5.9	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	IIANet	SI-SNRi	18.3	—	Unverified
2	RTFS-Net-12	SI-SNRi	17.5	—	Unverified
3	CTCNet	SI-SNRi	17.4	—	Unverified
4	RTFS-Net-6	SI-SNRi	16.9	—	Unverified
5	RTFS-Net-4	SI-SNRi	15.5	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	IIANet	SI-SNRi	14	—	Unverified
2	RTFS-Net-12	SI-SNRi	12.4	—	Unverified
3	CTCNet	SI-SNRi	11.9	—	Unverified
4	RTFS-Net-6	SI-SNRi	11.8	—	Unverified
5	RTFS-Net-4	SI-SNRi	11.5	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	SepTDA	SI-SDRi	22	—	Unverified
2	Gated DualPathRNN	SI-SDRi	12.88	—	Unverified
3	Conditional TasNet	SI-SDRi	12.5	—	Unverified
4	OR-PIT	SI-SDRi	10.2	—	Unverified
5	Multi-Decoder DPRNN	SI-SDRi	9.3	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	Separate And Diffuse	SI-SDRi	14.2	—	Unverified
2	SepIt	SI-SDRi	13.7	—	Unverified
3	OCD	SI-SDRi	13.4	—	Unverified
4	Hungarian PIT	SI-SDRi	12.72	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	Separate And Diffuse	SI-SDRi	9	—	Unverified
2	SepIt	SI-SDRi	8.2	—	Unverified
3	Hungarian PIT	SI-SDRi	7.78	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1		SDR	9.6	—	Unverified
2	Audio-Visual concat-ref	SDR	8.05	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	Separate And Diffuse	SI-SDRi	5.2	—	Unverified
2	Hungarian PIT	SI-SDRi	4.26	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	Conformer (base)	0S	5.6	—	Unverified
2	Conformer (large)	0S	5.4	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	Hungarian PIT	SI-SDRi	5.66	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	Audio-Visual concat-ref	SDR	10.55	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	MossFormer2	SI-SDRi	20.5	—	Unverified