Speech Separation

The task of extracting all overlapping speech sources in a given mixed speech signal refers to the Speech Separation. Speech Separation is a special scenario of source separation problem, where the focus is only on the overlapping speech signal sources and other interferences such as music or noise signals are not the main concern of the study. A recent representative Github project can be referred to ClearerVoice-Studio.

Source: A Unified Framework for Speech Separation

Image credit: Speech Separation of A Target Speaker Based on Deep Neural Networks

Papers

Recently Added Most Hyped Most Active Needs Verification Most Verified

Showing 51–100 of 359 papers

Title	Date	Tasks	Status	Hype
Transcription-Free Fine-Tuning of Speech Separation Models for Noisy and Reverberant Multi-Speaker Automatic Speech Recognition	Jun 13, 2024	Automatic Speech RecognitionAutomatic Speech Recognition (ASR)	—Unverified	0
Multimodal Representation Loss Between Timed Text and Audio for Regularized Speech Separation	Jun 12, 2024	Language ModelingLanguage Modelling	—Unverified	0
Noise-robust Speech Separation with Fast Generative Correction	Jun 11, 2024	Speech Separation	CodeCode Available	1
Separate and Reconstruct: Asymmetric Encoder-Decoder for Speech Separation	Jun 10, 2024	ChunkingSpeech Separation	CodeCode Available	3
Cross-Talk Reduction	May 30, 2024	Speech Separation	—Unverified	0
Effects of Dataset Sampling Rate for Noise Cancellation through Deep Learning	May 30, 2024	Speech Separation	—Unverified	0
SPMamba: State-space model is all you need in speech separation	Apr 2, 2024	AllMamba	CodeCode Available	3
Robust Active Speaker Detection in Noisy Environments	Mar 27, 2024	Active Speaker DetectionSpeech Separation	—Unverified	0
Dual-path Mamba: Short and Long-term Bidirectional Selective Structured State Space Models for Speech Separation	Mar 27, 2024	MambaSpeech Separation	CodeCode Available	2
PixIT: Joint Training of Speaker Diarization and Speech Separation from Real-world Multi-speaker Recordings	Mar 4, 2024	Automatic Speech RecognitionAutomatic Speech Recognition (ASR)	CodeCode Available	2
Probing Self-supervised Learning Models with Target Speech Extraction	Feb 17, 2024	Self-Supervised LearningSpeaker Identification	—Unverified	0
Mixture to Mixture: Leveraging Close-talk Mixtures as Weak-supervision for Speech Separation	Feb 14, 2024	Speaker SeparationSpeech Separation	—Unverified	0
Online speaker diarization of meetings guided by speech separation	Jan 30, 2024	Action DetectionActivity Detection	CodeCode Available	1
TDFNet: An Efficient Audio-Visual Speech Separation Model with Top-down Fusion	Jan 25, 2024	speech-recognitionSpeech Recognition	CodeCode Available	1
Boosting Unknown-number Speaker Separation with Transformer Decoder-based Attractor	Jan 23, 2024	DecoderSpeaker Separation	—Unverified	0
Resource-constrained stereo singing voice cancellation	Jan 22, 2024	Music Source SeparationSpeech Separation	—Unverified	0
Multi-Input Multi-Output Target-Speaker Voice Activity Detection For Unified, Flexible, and Robust Audio-Visual Speaker Diarization	Jan 16, 2024	Action DetectionActivity Detection	—Unverified	0
Single-Microphone Speaker Separation and Voice Activity Detection in Noisy and Reverberant Environments	Jan 7, 2024	Action DetectionActivity Detection	—Unverified	0
Hyperbolic Distance-Based Speech Separation	Jan 7, 2024	Speech Separation	—Unverified	0
Improving Label Assignments Learning by Dynamic Sample Dropout Combined with Layer-wise Optimization in Speech Separation	Nov 20, 2023	Speech Separation	—Unverified	0
Seeing Through the Conversation: Audio-Visual Speech Separation based on Diffusion Model	Oct 30, 2023	Speech Separation	—Unverified	0
Real-time Speech Enhancement and Separation with a Unified Deep Neural Network for Single/Dual Talker Scenarios	Oct 16, 2023	Speech EnhancementSpeech Separation	—Unverified	0
A Single Speech Enhancement Model Unifying Dereverberation, Denoising, Speaker Counting, Separation, and Extraction	Oct 12, 2023	DenoisingSpeech Enhancement	—Unverified	0
On Time Domain Conformer Models for Monaural Speech Separation in Noisy Reverberant Acoustic Environments	Oct 9, 2023	Computational EfficiencySpeech Separation	CodeCode Available	1
GASS: Generalizing Audio Source Separation with Large-scale Data	Sep 29, 2023	Audio Source SeparationSpeech Separation	—Unverified	0
RTFS-Net: Recurrent Time-Frequency Modelling for Efficient Audio-Visual Speech Separation	Sep 29, 2023	Audio-Visual Speech Recognitionspeech-recognition	CodeCode Available	1
Meeting Recognition with Continuous Speech Separation and Transcription-Supported Diarization	Sep 28, 2023	SentenceSpeech Separation	—Unverified	0
SPGM: Prioritizing Local Features for enhanced speech separation performance	Sep 22, 2023	Speech Separation	CodeCode Available	0
Combining TF-GridNet and Mixture Encoder for Continuous Speech Separation for Meeting Transcription	Sep 15, 2023	Automatic Speech RecognitionAutomatic Speech Recognition (ASR)	—Unverified	0
TokenSplit: Using Discrete Speech Representations for Direct, Refined, and Transcript-Conditioned Speech Separation and Recognition	Aug 21, 2023	Automatic Speech RecognitionAutomatic Speech Recognition (ASR)	—Unverified	0
IIANet: An Intra- and Inter-Modality Attention Network for Audio-Visual Speech Separation	Aug 16, 2023	Speech Separation	CodeCode Available	1
Improving Deep Attractor Network by BGRU and GMM for Speech Separation	Aug 7, 2023	Speech Separation	—Unverified	0
Monaural Multi-Speaker Speech Separation Using Efficient Transformer Model	Jul 29, 2023	Computational EfficiencySpeech Separation	—Unverified	0
Exploring the Integration of Speech Separation and Recognition with Self-Supervised Learning Representation	Jul 23, 2023	Automatic Speech RecognitionAutomatic Speech Recognition (ASR)	—Unverified	0
Audio-visual End-to-end Multi-channel Speech Separation, Dereverberation and Recognition	Jul 6, 2023	Speech DereverberationSpeech Enhancement	—Unverified	0
Enhanced Neural Beamformer with Spatial Information for Target Speech Extraction	Jun 28, 2023	Dimensionality ReductionSpeech Extraction	—Unverified	0
Mixture Encoder for Joint Speech Separation and Recognition	Jun 21, 2023	Automatic Speech RecognitionAutomatic Speech Recognition (ASR)	—Unverified	0
Multi-Loss Convolutional Network with Time-Frequency Attention for Speech Enhancement	Jun 15, 2023	Speech EnhancementSpeech Separation	—Unverified	0
An Efficient Speech Separation Network Based on Recurrent Fusion Dilated Convolution and Channel Attention	Jun 9, 2023	Computational EfficiencyDecoder	—Unverified	0
Audio-Visual Speech Separation in Noisy Environments with a Lightweight Iterative Model	May 31, 2023	Speech Separation	CodeCode Available	1
UNSSOR: Unsupervised Neural Speech Separation by Leveraging Over-determined Training Mixtures	May 31, 2023	Speaker SeparationSpeech Separation	—Unverified	0
An Experimental Review of Speaker Diarization methods with application to Two-Speaker Conversational Telephone Speech recordings	May 29, 2023	Clusteringspeaker-diarization	—Unverified	0
A Neural State-Space Model Approach to Efficient Speech Separation	May 26, 2023	Representation LearningSpeech Separation	CodeCode Available	1
Locate and Beamform: Two-dimensional Locating All-neural Beamformer for Multi-channel Speech Separation	May 18, 2023	AllSpeech Separation	—Unverified	0
Speech Separation based on Contrastive Learning and Deep Modularization	May 18, 2023	Contrastive LearningSelf-Supervised Learning	—Unverified	0
Diffusion-based Signal Refiner for Speech Separation	May 10, 2023	DenoisingSpeech Enhancement	—Unverified	0
AudioSlots: A slot-centric generative model for audio separation	May 9, 2023	blind source separationDecoder	—Unverified	0
Deep Learning for Joint Acoustic Echo and Acoustic Howling Suppression in Hybrid Meetings	May 2, 2023	Speech Separation	—Unverified	0
Multi-channel Speech Separation Using Spatially Selective Deep Non-linear Filters	Apr 24, 2023	Speech Separation	—Unverified	0
On Data Sampling Strategies for Training Neural Network Speech Separation Models	Apr 14, 2023	Speech Separation	—Unverified	0

Show:10 25 50

← PrevPage 2 of 8Next →

All datasets WSJ0-2mix WHAMR!Libri2Mix WSJ0-3mix LRS2 WHAM!WSJ0-5mix LRS3 VoxCeleb2 WSJ0-4mix Libri5Mix Libri10Mix

Benchmark Results

#	Model	Metric	Claimed	Verified	Status
1	TF-Locoformer (L) + DM	SI-SDRi	25.1	—	Unverified
2	SepReformer-L	SI-SDRi	25.1	—	Unverified
3	TF-Locoformer (M) + DM	SI-SDRi	24.6	—	Unverified
4	TF-Locoformer (L)	SI-SDRi	24.2	—	Unverified
5	MossFormer2 (L)	SI-SDRi	24.1	—	Unverified
6	SepTDA (L=12)	SI-SDRi	24	—	Unverified
7	Separate And Diffuse	SI-SDRi	23.9	—	Unverified
8	TF-Locoformer (M)	SI-SDRi	23.6	—	Unverified
9	MossFormer (L) + DM	SI-SDRi	22.8	—	Unverified
10	TF-Locoformer (S) + DM	SI-SDRi	22.8	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	TF-Locoformer (M)	SI-SDRi	18.5	—	Unverified
2	TF-Locoformer (S)	SI-SDRi	17.4	—	Unverified
3	SepReformer-L + DM	SI-SDRi	17.1	—	Unverified
4	MossFormer2	SI-SDRi	17	—	Unverified
5	MossFormer (L) + DM	SI-SDRi	16.3	—	Unverified
6	TD-Conformer (XL) + DM	SI-SDRi	14.6	—	Unverified
7	Improved Sudo rm -rf (U=36)	SI-SDRi	13.5	—	Unverified
8	TD-Conformer (L) + DM	SI-SDRi	13.4	—	Unverified
9	Wavesplit	SI-SDRi	13.2	—	Unverified
10	DPTNET - SRSSN	SI-SDRi	12.3	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	MossFormer2 (w speed perturb)	SI-SDRi	22.2	—	Unverified
2	TF-Locoformer (M)	SI-SDRi	22.1	—	Unverified
3	MossFormer2 (w/o DM)	SI-SDRi	21.7	—	Unverified
4	Separate And Diffuse	SI-SDRi	21.5	—	Unverified
5	WHYV	SI-SDRi	17.5	—	Unverified
6	TDANet Large	SI-SDRi	17.4	—	Unverified
7	TDANet	SI-SDRi	16.9	—	Unverified
8	Conv-Tasnet (Libri1Mix speech enhancement pre-trained)	SI-SDRi	14.1	—	Unverified
9	Conv-Tasnet (Libri1Mix speech enhancement multi-task)	SI-SDRi	13.7	—	Unverified
10	Conv-Tasnet	SI-SDRi	13.2	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	SepTDA	SI-SDRi	23.7	—	Unverified
2	MossFormer2	SI-SDRi	22.2	—	Unverified
3	MossFormer (L) + DM	SI-SDRi	21.2	—	Unverified
4	Separate And Diffuse	SI-SDRi	20.9	—	Unverified
5	MossFormer (M) + DM	SI-SDRi	20.8	—	Unverified
6	SepIt	SI-SDRi	20.1	—	Unverified
7	SepFormer	SI-SDRi	19.5	—	Unverified
8	Sandglasset	SI-SDRi	17.1	—	Unverified
9	Gated DualPathRNN	SI-SDRi	16.85	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	IIANet	SI-SNRi	16.4	—	Unverified
2	TDFNet-large	SI-SNRi	15.8	—	Unverified
3	TDFNet (MHSA + Shared)	SI-SNRi	15	—	Unverified
4	RTFS-Net-12	SI-SNRi	14.9	—	Unverified
5	RTFS-Net-6	SI-SNRi	14.6	—	Unverified
6	CTCNet	SI-SNRi	14.3	—	Unverified
7	RTFS-Net-4	SI-SNRi	14.1	—	Unverified
8	TDFNet-small	SI-SNRi	13.6	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	SepReformer-L + DM	SI-SDRi	18.4	—	Unverified
2	MossFormer2	SI-SDRi	18.1	—	Unverified
3	MossFormer (L) + DM	SI-SDRi	17.3	—	Unverified
4	TDANet Large	SI-SDRi	15.2	—	Unverified
5	TDANet	SI-SDRi	14.8	—	Unverified
6	WHYV	SI-SDRi	12.96	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	SepTDA	SI-SDRi	21	—	Unverified
2	Hungarian PIT	SI-SDRi	13.22	—	Unverified
3	Conditional TasNet	SI-SDRi	11.7	—	Unverified
4	TasTas	SI-SDRi	11.14	—	Unverified
5	Gated DualPathRNN	SI-SDRi	10.56	—	Unverified
6	Multi-Decoder DPRNN	SI-SDRi	5.9	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	IIANet	SI-SNRi	18.3	—	Unverified
2	RTFS-Net-12	SI-SNRi	17.5	—	Unverified
3	CTCNet	SI-SNRi	17.4	—	Unverified
4	RTFS-Net-6	SI-SNRi	16.9	—	Unverified
5	RTFS-Net-4	SI-SNRi	15.5	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	IIANet	SI-SNRi	14	—	Unverified
2	RTFS-Net-12	SI-SNRi	12.4	—	Unverified
3	CTCNet	SI-SNRi	11.9	—	Unverified
4	RTFS-Net-6	SI-SNRi	11.8	—	Unverified
5	RTFS-Net-4	SI-SNRi	11.5	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	SepTDA	SI-SDRi	22	—	Unverified
2	Gated DualPathRNN	SI-SDRi	12.88	—	Unverified
3	Conditional TasNet	SI-SDRi	12.5	—	Unverified
4	OR-PIT	SI-SDRi	10.2	—	Unverified
5	Multi-Decoder DPRNN	SI-SDRi	9.3	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	Separate And Diffuse	SI-SDRi	14.2	—	Unverified
2	SepIt	SI-SDRi	13.7	—	Unverified
3	OCD	SI-SDRi	13.4	—	Unverified
4	Hungarian PIT	SI-SDRi	12.72	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	Separate And Diffuse	SI-SDRi	9	—	Unverified
2	SepIt	SI-SDRi	8.2	—	Unverified
3	Hungarian PIT	SI-SDRi	7.78	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1		SDR	9.6	—	Unverified
2	Audio-Visual concat-ref	SDR	8.05	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	Separate And Diffuse	SI-SDRi	5.2	—	Unverified
2	Hungarian PIT	SI-SDRi	4.26	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	Conformer (base)	0S	5.6	—	Unverified
2	Conformer (large)	0S	5.4	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	Hungarian PIT	SI-SDRi	5.66	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	Audio-Visual concat-ref	SDR	10.55	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	MossFormer2	SI-SDRi	20.5	—	Unverified