Speech Separation

The task of extracting all overlapping speech sources in a given mixed speech signal refers to the Speech Separation. Speech Separation is a special scenario of source separation problem, where the focus is only on the overlapping speech signal sources and other interferences such as music or noise signals are not the main concern of the study. A recent representative Github project can be referred to ClearerVoice-Studio.

Source: A Unified Framework for Speech Separation

Image credit: Speech Separation of A Target Speaker Based on Deep Neural Networks

Papers

Recently Added Most Hyped Most Active Needs Verification Most Verified

Showing 1–50 of 359 papers

Title	Date	Tasks	Status	Hype
SoloSpeech: Enhancing Intelligibility and Quality in Target Speech Extraction through a Cascaded Generative Pipeline	May 25, 2025	Speech ExtractionSpeech Separation	CodeCode Available	3
SonicSim: A customizable simulation platform for speech processing in moving sound source scenarios	Oct 2, 2024	Speech EnhancementSpeech Separation	CodeCode Available	3
Separate and Reconstruct: Asymmetric Encoder-Decoder for Speech Separation	Jun 10, 2024	ChunkingSpeech Separation	CodeCode Available	3
SPMamba: State-space model is all you need in speech separation	Apr 2, 2024	AllMamba	CodeCode Available	3
Conv-TasNet: Surpassing Ideal Time-Frequency Magnitude Masking for Speech Separation	Sep 20, 2018	Multi-task Audio Source SeperationMusic Source Separation	CodeCode Available	3
Target Speaker ASR with Whisper	Sep 14, 2024	Speech Separation	CodeCode Available	2
TF-Locoformer: Transformer with Local Modeling by Convolution for Speech Separation and Enhancement	Aug 6, 2024	Speech EnhancementSpeech Separation	CodeCode Available	2
Speech Slytherin: Examining the Performance and Efficiency of Mamba for Speech Separation, Recognition, and Synthesis	Jul 13, 2024	Mambaspeech-recognition	CodeCode Available	2
Dual-path Mamba: Short and Long-term Bidirectional Selective Structured State Space Models for Speech Separation	Mar 27, 2024	MambaSpeech Separation	CodeCode Available	2
PixIT: Joint Training of Speaker Diarization and Speech Separation from Real-world Multi-speaker Recordings	Mar 4, 2024	Automatic Speech RecognitionAutomatic Speech Recognition (ASR)	CodeCode Available	2
An efficient encoder-decoder architecture with top-down attention for speech separation	Sep 30, 2022	CPU	CodeCode Available	2
CMGAN: Conformer-Based Metric-GAN for Monaural Speech Enhancement	Sep 22, 2022	Audio Super-ResolutionAutomatic Speech Recognition	CodeCode Available	2
Voice Separation with an Unknown Number of Multiple Speakers	Feb 29, 2020	Speech Separation	CodeCode Available	2
SepPrune: Structured Pruning for Efficient Deep Speech Separation	May 17, 2025	channel selectionComputational Efficiency	CodeCode Available	1
ArrayDPS: Unsupervised Blind Speech Separation with a Diffusion Prior	May 8, 2025	Room Impulse Response (RIR)Speech Separation	CodeCode Available	1
VANPY: Voice Analysis Framework	Feb 17, 2025	Action DetectionActivity Detection	CodeCode Available	1
SepMamba: State-space models for speaker separation using Mamba	Oct 28, 2024	MambaSpeaker Separation	CodeCode Available	1
USEF-TSE: Universal Speaker Embedding Free Target Speaker Extraction	Sep 4, 2024	Speaker RecognitionSpeech Separation	CodeCode Available	1
Enhanced Reverberation as Supervision for Unsupervised Speech Separation	Aug 6, 2024	Speech Separation	CodeCode Available	1
Annealed Multiple Choice Learning: Overcoming limitations of Winner-takes-all with annealing	Jul 22, 2024	AllDiversity	CodeCode Available	1
Papez: Resource-Efficient Speech Separation with Auditory Working Memory	Jul 1, 2024	Speech Separation	CodeCode Available	1
Towards Audio Codec-based Speech Separation	Jun 18, 2024	Edge-computingSpeech Separation	CodeCode Available	1
Text-aware Speech Separation for Multi-talker Keyword Spotting	Jun 18, 2024	Keyword SpottingSpeech Separation	CodeCode Available	1
AV-CrossNet: an Audiovisual Complex Spectral Mapping Network for Speech Separation By Leveraging Narrow- and Cross-Band Modeling	Jun 17, 2024	Speaker SeparationSpeech Enhancement	CodeCode Available	1
Noise-robust Speech Separation with Fast Generative Correction	Jun 11, 2024	Speech Separation	CodeCode Available	1
Online speaker diarization of meetings guided by speech separation	Jan 30, 2024	Action DetectionActivity Detection	CodeCode Available	1
TDFNet: An Efficient Audio-Visual Speech Separation Model with Top-down Fusion	Jan 25, 2024	speech-recognitionSpeech Recognition	CodeCode Available	1
On Time Domain Conformer Models for Monaural Speech Separation in Noisy Reverberant Acoustic Environments	Oct 9, 2023	Computational EfficiencySpeech Separation	CodeCode Available	1
RTFS-Net: Recurrent Time-Frequency Modelling for Efficient Audio-Visual Speech Separation	Sep 29, 2023	Audio-Visual Speech Recognitionspeech-recognition	CodeCode Available	1
IIANet: An Intra- and Inter-Modality Attention Network for Audio-Visual Speech Separation	Aug 16, 2023	Speech Separation	CodeCode Available	1
Audio-Visual Speech Separation in Noisy Environments with a Lightweight Iterative Model	May 31, 2023	Speech Separation	CodeCode Available	1
A Neural State-Space Model Approach to Efficient Speech Separation	May 26, 2023	Representation LearningSpeech Separation	CodeCode Available	1
MossFormer: Pushing the Performance Limit of Monaural Speech Separation using Gated Single-Head Transformer with Convolution-Augmented Joint Self-Attentions	Feb 23, 2023	Speech Separation	CodeCode Available	1
Unifying Speech Enhancement and Separation with Gradient Modulation for End-to-End Noise-Robust Speech Separation	Feb 22, 2023	Multi-Task LearningSpeech Enhancement	CodeCode Available	1
An Audio-Visual Speech Separation Model Inspired by Cortico-Thalamo-Cortical Circuits	Dec 21, 2022	Speech Separation	CodeCode Available	1
Deformable Temporal Convolutional Networks for Monaural Noisy Reverberant Speech Separation	Oct 27, 2022	Speech DereverberationSpeech Separation	CodeCode Available	1
OCD: Learning to Overfit with Conditional Diffusion Models	Oct 2, 2022	3D ReconstructionDenoising	CodeCode Available	1
MESH2IR: Neural Acoustic Impulse Response Generator for Complex 3D Scenes	May 18, 2022	2kCPU	CodeCode Available	1
Low-Latency Speech Separation Guided Diarization for Telephone Conversations	Apr 5, 2022	Action DetectionActivity Detection	CodeCode Available	1
VoViT: Low Latency Graph-based Audio-Visual Voice Separation Transformer	Mar 8, 2022	Speech Separation	CodeCode Available	1
MixCycle: Unsupervised Speech Separation via Cyclic Mixture Permutation Invariant Training	Feb 8, 2022	Data AugmentationSpeech Separation	CodeCode Available	1
DPCCN: Densely-Connected Pyramid Complex Convolutional Network for Robust Speech Separation And Extraction	Dec 27, 2021	Speech ExtractionSpeech Separation	CodeCode Available	1
A Time-domain Real-valued Generalized Wiener Filter for Multi-channel Neural Separation Systems	Dec 7, 2021	Speech Separation	CodeCode Available	1
LiMuSE: Lightweight Multi-modal Speaker Extraction	Nov 7, 2021	Model CompressionQuantization	CodeCode Available	1
Graph-PIT: Generalized permutation invariant training for continuous separation of arbitrary numbers of speakers	Jul 30, 2021	Speech Separation	CodeCode Available	1
Multi-Task Audio Source Separation	Jul 14, 2021	Audio Source SeparationMulti-task Audio Source Seperation	CodeCode Available	1
A cappella: Audio-visual Singing Voice Separation	Apr 20, 2021	Music Source SeparationSpeech Separation	CodeCode Available	1
Blind Speech Separation and Dereverberation using Neural Beamforming	Mar 24, 2021	Speaker IdentificationSpeaker Separation	CodeCode Available	1
Compute and memory efficient universal sound source separation	Mar 3, 2021	Audio Source SeparationEfficient Neural Network	CodeCode Available	1
Sandglasset: A Light Multi-Granularity Self-attentive Network For Time-Domain Speech Separation	Mar 1, 2021	Computational EfficiencySpeech Separation	CodeCode Available	1

Show:10 25 50

← PrevPage 1 of 8Next →

All datasets WSJ0-2mix WHAMR!Libri2Mix WSJ0-3mix LRS2 WHAM!WSJ0-5mix LRS3 VoxCeleb2 WSJ0-4mix Libri5Mix Libri10Mix

Benchmark Results

#	Model	Metric	Claimed	Verified	Status
1	TF-Locoformer (L) + DM	SI-SDRi	25.1	—	Unverified
2	SepReformer-L	SI-SDRi	25.1	—	Unverified
3	TF-Locoformer (M) + DM	SI-SDRi	24.6	—	Unverified
4	TF-Locoformer (L)	SI-SDRi	24.2	—	Unverified
5	MossFormer2 (L)	SI-SDRi	24.1	—	Unverified
6	SepTDA (L=12)	SI-SDRi	24	—	Unverified
7	Separate And Diffuse	SI-SDRi	23.9	—	Unverified
8	TF-Locoformer (M)	SI-SDRi	23.6	—	Unverified
9	MossFormer (L) + DM	SI-SDRi	22.8	—	Unverified
10	TF-Locoformer (S) + DM	SI-SDRi	22.8	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	TF-Locoformer (M)	SI-SDRi	18.5	—	Unverified
2	TF-Locoformer (S)	SI-SDRi	17.4	—	Unverified
3	SepReformer-L + DM	SI-SDRi	17.1	—	Unverified
4	MossFormer2	SI-SDRi	17	—	Unverified
5	MossFormer (L) + DM	SI-SDRi	16.3	—	Unverified
6	TD-Conformer (XL) + DM	SI-SDRi	14.6	—	Unverified
7	Improved Sudo rm -rf (U=36)	SI-SDRi	13.5	—	Unverified
8	TD-Conformer (L) + DM	SI-SDRi	13.4	—	Unverified
9	Wavesplit	SI-SDRi	13.2	—	Unverified
10	DPTNET - SRSSN	SI-SDRi	12.3	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	MossFormer2 (w speed perturb)	SI-SDRi	22.2	—	Unverified
2	TF-Locoformer (M)	SI-SDRi	22.1	—	Unverified
3	MossFormer2 (w/o DM)	SI-SDRi	21.7	—	Unverified
4	Separate And Diffuse	SI-SDRi	21.5	—	Unverified
5	WHYV	SI-SDRi	17.5	—	Unverified
6	TDANet Large	SI-SDRi	17.4	—	Unverified
7	TDANet	SI-SDRi	16.9	—	Unverified
8	Conv-Tasnet (Libri1Mix speech enhancement pre-trained)	SI-SDRi	14.1	—	Unverified
9	Conv-Tasnet (Libri1Mix speech enhancement multi-task)	SI-SDRi	13.7	—	Unverified
10	Conv-Tasnet	SI-SDRi	13.2	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	SepTDA	SI-SDRi	23.7	—	Unverified
2	MossFormer2	SI-SDRi	22.2	—	Unverified
3	MossFormer (L) + DM	SI-SDRi	21.2	—	Unverified
4	Separate And Diffuse	SI-SDRi	20.9	—	Unverified
5	MossFormer (M) + DM	SI-SDRi	20.8	—	Unverified
6	SepIt	SI-SDRi	20.1	—	Unverified
7	SepFormer	SI-SDRi	19.5	—	Unverified
8	Sandglasset	SI-SDRi	17.1	—	Unverified
9	Gated DualPathRNN	SI-SDRi	16.85	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	IIANet	SI-SNRi	16.4	—	Unverified
2	TDFNet-large	SI-SNRi	15.8	—	Unverified
3	TDFNet (MHSA + Shared)	SI-SNRi	15	—	Unverified
4	RTFS-Net-12	SI-SNRi	14.9	—	Unverified
5	RTFS-Net-6	SI-SNRi	14.6	—	Unverified
6	CTCNet	SI-SNRi	14.3	—	Unverified
7	RTFS-Net-4	SI-SNRi	14.1	—	Unverified
8	TDFNet-small	SI-SNRi	13.6	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	SepReformer-L + DM	SI-SDRi	18.4	—	Unverified
2	MossFormer2	SI-SDRi	18.1	—	Unverified
3	MossFormer (L) + DM	SI-SDRi	17.3	—	Unverified
4	TDANet Large	SI-SDRi	15.2	—	Unverified
5	TDANet	SI-SDRi	14.8	—	Unverified
6	WHYV	SI-SDRi	12.96	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	SepTDA	SI-SDRi	21	—	Unverified
2	Hungarian PIT	SI-SDRi	13.22	—	Unverified
3	Conditional TasNet	SI-SDRi	11.7	—	Unverified
4	TasTas	SI-SDRi	11.14	—	Unverified
5	Gated DualPathRNN	SI-SDRi	10.56	—	Unverified
6	Multi-Decoder DPRNN	SI-SDRi	5.9	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	IIANet	SI-SNRi	18.3	—	Unverified
2	RTFS-Net-12	SI-SNRi	17.5	—	Unverified
3	CTCNet	SI-SNRi	17.4	—	Unverified
4	RTFS-Net-6	SI-SNRi	16.9	—	Unverified
5	RTFS-Net-4	SI-SNRi	15.5	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	IIANet	SI-SNRi	14	—	Unverified
2	RTFS-Net-12	SI-SNRi	12.4	—	Unverified
3	CTCNet	SI-SNRi	11.9	—	Unverified
4	RTFS-Net-6	SI-SNRi	11.8	—	Unverified
5	RTFS-Net-4	SI-SNRi	11.5	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	SepTDA	SI-SDRi	22	—	Unverified
2	Gated DualPathRNN	SI-SDRi	12.88	—	Unverified
3	Conditional TasNet	SI-SDRi	12.5	—	Unverified
4	OR-PIT	SI-SDRi	10.2	—	Unverified
5	Multi-Decoder DPRNN	SI-SDRi	9.3	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	Separate And Diffuse	SI-SDRi	14.2	—	Unverified
2	SepIt	SI-SDRi	13.7	—	Unverified
3	OCD	SI-SDRi	13.4	—	Unverified
4	Hungarian PIT	SI-SDRi	12.72	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	Separate And Diffuse	SI-SDRi	9	—	Unverified
2	SepIt	SI-SDRi	8.2	—	Unverified
3	Hungarian PIT	SI-SDRi	7.78	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1		SDR	9.6	—	Unverified
2	Audio-Visual concat-ref	SDR	8.05	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	Separate And Diffuse	SI-SDRi	5.2	—	Unverified
2	Hungarian PIT	SI-SDRi	4.26	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	Conformer (base)	0S	5.6	—	Unverified
2	Conformer (large)	0S	5.4	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	Hungarian PIT	SI-SDRi	5.66	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	Audio-Visual concat-ref	SDR	10.55	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	MossFormer2	SI-SDRi	20.5	—	Unverified