Speech Separation

The task of extracting all overlapping speech sources in a given mixed speech signal refers to the Speech Separation. Speech Separation is a special scenario of source separation problem, where the focus is only on the overlapping speech signal sources and other interferences such as music or noise signals are not the main concern of the study. A recent representative Github project can be referred to ClearerVoice-Studio.

Source: A Unified Framework for Speech Separation

Image credit: Speech Separation of A Target Speaker Based on Deep Neural Networks

Papers

Recently Added Most Hyped Most Active Needs Verification Most Verified

Showing 1–50 of 359 papers

Title	Date	Tasks	Status	Hype
Dynamic Slimmable Networks for Efficient Speech Separation	Jul 8, 2025	Speech Separation	—Unverified	0
Improving Practical Aspects of End-to-End Multi-Talker Speech Recognition for Online and Offline Scenarios	Jun 17, 2025	Automatic Speech RecognitionAutomatic Speech Recognition (ASR)	—Unverified	0
SoloSpeech: Enhancing Intelligibility and Quality in Target Speech Extraction through a Cascaded Generative Pipeline	May 25, 2025	Speech ExtractionSpeech Separation	CodeCode Available	3
Attractor-Based Speech Separation of Multiple Utterances by Unknown Number of Speakers	May 22, 2025	Speech Separation	—Unverified	0
Single-Channel Target Speech Extraction Utilizing Distance and Room Clues	May 20, 2025	Speech ExtractionSpeech Separation	—Unverified	0
Time-Frequency-Based Attention Cache Memory Model for Real-Time Speech Separation	May 19, 2025	Speech Separation	—Unverified	0
SepPrune: Structured Pruning for Efficient Deep Speech Separation	May 17, 2025	channel selectionComputational Efficiency	CodeCode Available	1
A Survey of Deep Learning for Complex Speech Spectrograms	May 13, 2025	Deep LearningSpeech Enhancement	—Unverified	0
ArrayDPS: Unsupervised Blind Speech Separation with a Diffusion Prior	May 8, 2025	Room Impulse Response (RIR)Speech Separation	CodeCode Available	1
SwinLip: An Efficient Visual Speech Encoder for Lip Reading Using Swin Transformer	May 7, 2025	Audio-Visual Speech RecognitionLip Reading	—Unverified	0
SepALM: Audio Language Models Are Error Correctors for Robust Speech Separation	May 6, 2025	Automatic Speech RecognitionAutomatic Speech Recognition (ASR)	—Unverified	0
Passive Underwater Acoustic Signal Separation based on Feature Decoupling Dual-path Network	Apr 11, 2025	Speech Separation	—Unverified	0
Causal Self-supervised Pretrained Frontend with Predictive Code for Speech Separation	Apr 3, 2025	DecoderKnowledge Distillation	—Unverified	0
VANPY: Voice Analysis Framework	Feb 17, 2025	Action DetectionActivity Detection	CodeCode Available	1
EDSep: An Effective Diffusion-Based Method for Speech Source Separation	Jan 27, 2025	Speech Separation	—Unverified	0
Leveraging Spatial Cues from Cochlear Implant Microphones to Efficiently Enhance Speech Separation in Real-World Listening Scenes	Jan 24, 2025	Speech Separation	—Unverified	0
Beyond Speaker Identity: Text Guided Target Speech Extraction	Jan 15, 2025	Speech ExtractionSpeech Separation	CodeCode Available	0
Reading to Listen at the Cocktail Party: Multi-Modal Speech Separation	Jan 2, 2025	SentenceSpeech Separation	—Unverified	0
U-Mamba-Net: A highly efficient Mamba-based U-net style network for noisy and reverberant speech separation	Dec 24, 2024	feature selectionMamba	—Unverified	0
Speech Separation using Neural Audio Codecs with Embedding Loss	Nov 27, 2024	Speech Separation	—Unverified	0
Multiple Choice Learning for Efficient Speech Separation with Many Speakers	Nov 27, 2024	Multiple-choiceSpeech Separation	—Unverified	0
Study of the Performance of CEEMDAN in Underdetermined Speech Separation	Nov 18, 2024	Audio Source SeparationSpeech Separation	—Unverified	0
DCF-DS: Deep Cascade Fusion of Diarization and Separation for Speech Recognition under Realistic Single-Channel Conditions	Nov 11, 2024	Automatic Speech RecognitionAutomatic Speech Recognition (ASR)	—Unverified	0
Speech Separation with Pretrained Frontend to Minimize Domain Mismatch	Nov 5, 2024	Speech Separation	CodeCode Available	0
Task-Aware Unified Source Separation	Oct 31, 2024	Audio Source SeparationMusic Source Separation	—Unverified	0
SepMamba: State-space models for speaker separation using Mamba	Oct 28, 2024	MambaSpeaker Separation	CodeCode Available	1
Mask-Weighted Spatial Likelihood Coding for Speaker-Independent Joint Localization and Mask Estimation	Oct 25, 2024	Sound Source LocalizationSpeech Separation	—Unverified	0
STCON System for the CHiME-8 Challenge	Oct 17, 2024	Data AugmentationSpeech Separation	—Unverified	0
TIGER: Time-frequency Interleaved Gain Extraction and Reconstruction for Efficient Speech Separation	Oct 2, 2024	Speech Separation	—Unverified	0
SonicSim: A customizable simulation platform for speech processing in moving sound source scenarios	Oct 2, 2024	Speech EnhancementSpeech Separation	CodeCode Available	3
Wanna hear your voice? A sample is all we need!	Oct 1, 2024	AllSpeech Separation	—Unverified	0
Incorporating Spatial Cues in Modular Speaker Diarization for Multi-channel Multi-party Meetings	Sep 25, 2024	Clusteringspeaker-diarization	—Unverified	0
Target Speaker ASR with Whisper	Sep 14, 2024	Speech Separation	CodeCode Available	2
DualSep: A Light-weight dual-encoder convolutional recurrent network for real-time in-car speech separation	Sep 13, 2024	CPUSpeech Separation	—Unverified	0
USEF-TSE: Universal Speaker Embedding Free Target Speaker Extraction	Sep 4, 2024	Speaker RecognitionSpeech Separation	CodeCode Available	1
LibriheavyMix: A 20,000-Hour Dataset for Single-Channel Reverberant Multi-Talker Speech Separation, ASR and Speaker Diarization	Sep 1, 2024	speaker-diarizationSpeaker Diarization	—Unverified	0
Improving Generalization of Speech Separation in Real-World Scenarios: Strategies in Simulation, Optimization, and Evaluation	Aug 28, 2024	Speech Separation	—Unverified	0
Enhanced Reverberation as Supervision for Unsupervised Speech Separation	Aug 6, 2024	Speech Separation	CodeCode Available	1
TF-Locoformer: Transformer with Local Modeling by Convolution for Speech Separation and Enhancement	Aug 6, 2024	Speech EnhancementSpeech Separation	CodeCode Available	2
Annealed Multiple Choice Learning: Overcoming limitations of Winner-takes-all with annealing	Jul 22, 2024	AllDiversity	CodeCode Available	1
Robustness of Speech Separation Models for Similar-pitch Speakers	Jul 22, 2024	speech-recognitionSpeech Recognition	—Unverified	0
TalTech-IRIT-LIS Speaker and Language Diarization Systems for DISPLACE 2024	Jul 17, 2024	speaker-diarizationSpeaker Diarization	—Unverified	0
Speech Slytherin: Examining the Performance and Efficiency of Mamba for Speech Separation, Recognition, and Synthesis	Jul 13, 2024	Mambaspeech-recognition	CodeCode Available	2
Knowledge boosting during low-latency inference	Jul 9, 2024	Speech Separation	CodeCode Available	0
Audio-Visual Approach For Multimodal Concurrent Speaker Detection	Jul 1, 2024	Multimodal Deep Learningspeaker-diarization	—Unverified	0
Papez: Resource-Efficient Speech Separation with Auditory Working Memory	Jul 1, 2024	Speech Separation	CodeCode Available	1
Towards Audio Codec-based Speech Separation	Jun 18, 2024	Edge-computingSpeech Separation	CodeCode Available	1
Text-aware Speech Separation for Multi-talker Keyword Spotting	Jun 18, 2024	Keyword SpottingSpeech Separation	CodeCode Available	1
AV-CrossNet: an Audiovisual Complex Spectral Mapping Network for Speech Separation By Leveraging Narrow- and Cross-Band Modeling	Jun 17, 2024	Speaker SeparationSpeech Enhancement	CodeCode Available	1
Enhanced Deep Speech Separation in Clustered Ad Hoc Distributed Microphone Environments	Jun 14, 2024	Deep LearningSpeech Separation	—Unverified	0

Show:10 25 50

← PrevPage 1 of 8Next →

All datasets WSJ0-2mix WHAMR!Libri2Mix WSJ0-3mix LRS2 WHAM!WSJ0-5mix LRS3 VoxCeleb2 WSJ0-4mix Libri5Mix Libri10Mix

Benchmark Results

#	Model	Metric	Claimed	Verified	Status
1	SepReformer-L	SI-SDRi	25.1	—	Unverified
2	TF-Locoformer (L) + DM	SI-SDRi	25.1	—	Unverified
3	TF-Locoformer (M) + DM	SI-SDRi	24.6	—	Unverified
4	TF-Locoformer (L)	SI-SDRi	24.2	—	Unverified
5	MossFormer2 (L)	SI-SDRi	24.1	—	Unverified
6	SepTDA (L=12)	SI-SDRi	24	—	Unverified
7	Separate And Diffuse	SI-SDRi	23.9	—	Unverified
8	TF-Locoformer (M)	SI-SDRi	23.6	—	Unverified
9	TF-Locoformer (S) + DM	SI-SDRi	22.8	—	Unverified
10	MossFormer (L) + DM	SI-SDRi	22.8	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	TF-Locoformer (M)	SI-SDRi	18.5	—	Unverified
2	TF-Locoformer (S)	SI-SDRi	17.4	—	Unverified
3	SepReformer-L + DM	SI-SDRi	17.1	—	Unverified
4	MossFormer2	SI-SDRi	17	—	Unverified
5	MossFormer (L) + DM	SI-SDRi	16.3	—	Unverified
6	TD-Conformer (XL) + DM	SI-SDRi	14.6	—	Unverified
7	Improved Sudo rm -rf (U=36)	SI-SDRi	13.5	—	Unverified
8	TD-Conformer (L) + DM	SI-SDRi	13.4	—	Unverified
9	Wavesplit	SI-SDRi	13.2	—	Unverified
10	DPTNET - SRSSN	SI-SDRi	12.3	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	MossFormer2 (w speed perturb)	SI-SDRi	22.2	—	Unverified
2	TF-Locoformer (M)	SI-SDRi	22.1	—	Unverified
3	MossFormer2 (w/o DM)	SI-SDRi	21.7	—	Unverified
4	Separate And Diffuse	SI-SDRi	21.5	—	Unverified
5	WHYV	SI-SDRi	17.5	—	Unverified
6	TDANet Large	SI-SDRi	17.4	—	Unverified
7	TDANet	SI-SDRi	16.9	—	Unverified
8	Conv-Tasnet (Libri1Mix speech enhancement pre-trained)	SI-SDRi	14.1	—	Unverified
9	Conv-Tasnet (Libri1Mix speech enhancement multi-task)	SI-SDRi	13.7	—	Unverified
10	Conv-Tasnet	SI-SDRi	13.2	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	SepTDA	SI-SDRi	23.7	—	Unverified
2	MossFormer2	SI-SDRi	22.2	—	Unverified
3	MossFormer (L) + DM	SI-SDRi	21.2	—	Unverified
4	Separate And Diffuse	SI-SDRi	20.9	—	Unverified
5	MossFormer (M) + DM	SI-SDRi	20.8	—	Unverified
6	SepIt	SI-SDRi	20.1	—	Unverified
7	SepFormer	SI-SDRi	19.5	—	Unverified
8	Sandglasset	SI-SDRi	17.1	—	Unverified
9	Gated DualPathRNN	SI-SDRi	16.85	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	IIANet	SI-SNRi	16.4	—	Unverified
2	TDFNet-large	SI-SNRi	15.8	—	Unverified
3	TDFNet (MHSA + Shared)	SI-SNRi	15	—	Unverified
4	RTFS-Net-12	SI-SNRi	14.9	—	Unverified
5	RTFS-Net-6	SI-SNRi	14.6	—	Unverified
6	CTCNet	SI-SNRi	14.3	—	Unverified
7	RTFS-Net-4	SI-SNRi	14.1	—	Unverified
8	TDFNet-small	SI-SNRi	13.6	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	SepReformer-L + DM	SI-SDRi	18.4	—	Unverified
2	MossFormer2	SI-SDRi	18.1	—	Unverified
3	MossFormer (L) + DM	SI-SDRi	17.3	—	Unverified
4	TDANet Large	SI-SDRi	15.2	—	Unverified
5	TDANet	SI-SDRi	14.8	—	Unverified
6	WHYV	SI-SDRi	12.96	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	SepTDA	SI-SDRi	21	—	Unverified
2	Hungarian PIT	SI-SDRi	13.22	—	Unverified
3	Conditional TasNet	SI-SDRi	11.7	—	Unverified
4	TasTas	SI-SDRi	11.14	—	Unverified
5	Gated DualPathRNN	SI-SDRi	10.56	—	Unverified
6	Multi-Decoder DPRNN	SI-SDRi	5.9	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	IIANet	SI-SNRi	18.3	—	Unverified
2	RTFS-Net-12	SI-SNRi	17.5	—	Unverified
3	CTCNet	SI-SNRi	17.4	—	Unverified
4	RTFS-Net-6	SI-SNRi	16.9	—	Unverified
5	RTFS-Net-4	SI-SNRi	15.5	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	IIANet	SI-SNRi	14	—	Unverified
2	RTFS-Net-12	SI-SNRi	12.4	—	Unverified
3	CTCNet	SI-SNRi	11.9	—	Unverified
4	RTFS-Net-6	SI-SNRi	11.8	—	Unverified
5	RTFS-Net-4	SI-SNRi	11.5	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	SepTDA	SI-SDRi	22	—	Unverified
2	Gated DualPathRNN	SI-SDRi	12.88	—	Unverified
3	Conditional TasNet	SI-SDRi	12.5	—	Unverified
4	OR-PIT	SI-SDRi	10.2	—	Unverified
5	Multi-Decoder DPRNN	SI-SDRi	9.3	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	Separate And Diffuse	SI-SDRi	14.2	—	Unverified
2	SepIt	SI-SDRi	13.7	—	Unverified
3	OCD	SI-SDRi	13.4	—	Unverified
4	Hungarian PIT	SI-SDRi	12.72	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	Separate And Diffuse	SI-SDRi	9	—	Unverified
2	SepIt	SI-SDRi	8.2	—	Unverified
3	Hungarian PIT	SI-SDRi	7.78	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1		SDR	9.6	—	Unverified
2	Audio-Visual concat-ref	SDR	8.05	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	Separate And Diffuse	SI-SDRi	5.2	—	Unverified
2	Hungarian PIT	SI-SDRi	4.26	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	Conformer (base)	0S	5.6	—	Unverified
2	Conformer (large)	0S	5.4	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	Hungarian PIT	SI-SDRi	5.66	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	Audio-Visual concat-ref	SDR	10.55	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	MossFormer2	SI-SDRi	20.5	—	Unverified