Speech Enhancement

Speech Enhancement is a signal processing task that involves improving the quality of speech signals captured under noisy or degraded conditions. The goal of speech enhancement is to make speech signals clearer, more intelligible, and more pleasant to listen to, which can be used for various applications such as voice recognition, teleconferencing, and hearing aids. A representative Github project with online demo : ClearerVoice-Studio.

( Image credit: A Fully Convolutional Neural Network For Speech Enhancement )

Papers

Recently Added Most Hyped Most Active Needs Verification Most Verified

Showing 276–300 of 982 papers

Title	Date	Tasks	Status	Hype
Diffusion-based speech enhancement with a weighted generative-supervised learning loss	Sep 19, 2023	Speech Enhancement	—Unverified	0
Refining DNN-based Mask Estimation using CGMM-based EM Algorithm for Multi-channel Noise Reduction	Sep 18, 2023	Speech Enhancement	—Unverified	0
Single and Few-step Diffusion for Generative Speech Enhancement	Sep 18, 2023	DenoisingSpeech Enhancement	CodeCode Available	1
Continuous Modeling of the Denoising Process for Speech Enhancement Based on Deep Learning	Sep 17, 2023	Automatic Speech RecognitionDenoising	—Unverified	0
Unifying Robustness and Fidelity: A Comprehensive Study of Pretrained Generative Methods for Speech Enhancement in Adverse Conditions	Sep 16, 2023	Speech Enhancement	—Unverified	0
Two-Step Knowledge Distillation for Tiny Speech Enhancement	Sep 15, 2023	Knowledge DistillationModel Compression	—Unverified	0
Diff-SV: A Unified Hierarchical Framework for Noise-Robust Speaker Verification Using Score-Based Diffusion Probabilistic Models	Sep 14, 2023	Speaker VerificationSpeech Enhancement	CodeCode Available	1
Multi-dimensional Speech Quality Assessment in Crowdsourcing	Sep 14, 2023	Speech Enhancement	CodeCode Available	1
AV2Wav: Diffusion-Based Re-synthesis from Continuous Self-supervised Features for Audio-Visual Speech Enhancement	Sep 14, 2023	ResynthesisSpeech Enhancement	—Unverified	0
Assessing the Generalization Gap of Learning-Based Speech Enhancement Systems in Noisy and Reverberant Environments	Sep 12, 2023	Speech Enhancement	—Unverified	0
CleanUNet 2: A Hybrid Speech Denoising Model on Waveform and Spectrogram	Sep 12, 2023	DenoisingSpeech Denoising	—Unverified	0
PlumberNet: Fixing interference leakage after GEV beamforming	Sep 10, 2023	Speech Enhancement	CodeCode Available	0
Causal Signal-Based DCCRN with Overlapped-Frame Prediction for Online Speech Enhancement	Sep 7, 2023	Speech Enhancement	—Unverified	0
Spiking Structured State Space Model for Monaural Speech Enhancement	Sep 7, 2023	Speech EnhancementState Space Models	—Unverified	0
Simulating room transfer functions between transducers mounted on audio devices using a modified image source method	Sep 7, 2023	Computational Efficiencyparameter estimation	CodeCode Available	1
Single-Channel Speech Enhancement with Deep Complex U-Networks and Probabilistic Latent Space Models	Sep 4, 2023	Speech Enhancement	—Unverified	0
Noise robust speech emotion recognition with signal-to-noise ratio adapting speech enhancement	Sep 3, 2023	Emotion RecognitionSpeech Emotion Recognition	—Unverified	0
DeFTAN-II: Efficient Multichannel Speech Enhancement with Subgroup Processing	Aug 30, 2023	Speech Enhancement	CodeCode Available	1
Rep2wav: Noise Robust text-to-speech Using self-supervised representations	Aug 28, 2023	Speech Enhancementtext-to-speech	—Unverified	0
Exploiting Time-Frequency Conformers for Music Audio Enhancement	Aug 24, 2023	Speech Enhancement	—Unverified	0
AdVerb: Visually Guided Audio Dereverberation	Aug 23, 2023	Speaker VerificationSpeech Enhancement	—Unverified	0
Convoifilter: A case study of doing cocktail party speech recognition	Aug 22, 2023	Automatic Speech RecognitionAutomatic Speech Recognition (ASR)	—Unverified	0
Explicit Estimation of Magnitude and Phase Spectra in Parallel for High-Quality Speech Enhancement	Aug 17, 2023	Bandwidth ExtensionDecoder	CodeCode Available	2
SpeechX: Neural Codec Language Model as a Versatile Speech Transformer	Aug 14, 2023	Language ModelingLanguage Modelling	—Unverified	0
Separate Anything You Describe	Aug 9, 2023	Audio Source SeparationNatural Language Queries	CodeCode Available	3

Show:10 25 50

← PrevPage 12 of 40Next →

All datasets VoiceBank + DEMAND Deep Noise Suppression (DNS) Challenge CHiME-3 EARS-WHAM EasyCom DNS Challenge VB-DemandEx WHAMR!WSJ0 + DEMAND + RNNoise RealMAN VoiceBank+DEMAND DEMAND

Benchmark Results

#	Model	Metric	Claimed	Verified	Status
1	ROSE-CD(PESQ)	PESQ (wb)	3.99	—	Unverified
2	PESQetarian	PESQ (wb)	3.82	—	Unverified
3	Mamba-SEUNet L (+PCS)	PESQ (wb)	3.73	—	Unverified
4	Schrödinger bridge (PESQ loss)	PESQ (wb)	3.7	—	Unverified
5	SEMamba (+PCS)	PESQ (wb)	3.69	—	Unverified
6	ZipEnhancer (S, \lamba_6 = 0)	PESQ (wb)	3.63	—	Unverified
7	PrimeK-Net	PESQ (wb)	3.61	—	Unverified
8	ZipEnhancer (S, \lamba_6 = 0.2)	PESQ (wb)	3.61	—	Unverified
9	MP-SENet	PESQ (wb)	3.6	—	Unverified
10	PCS_CS_WAVLM	PESQ (wb)	3.54	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	BSRNN-S + MGD	SI-SDR-WB	21.4	—	Unverified
2	DTLN	SI-SDR-WB	16.34	—	Unverified
3	Non-Real-Time MultiScale+	SI-SDR-WB	16.22	—	Unverified
4	ZipEnhancer (M)	PESQ-WB	3.81	—	Unverified
5	TF-Locoformer (M)	PESQ-WB	3.72	—	Unverified
6	ZipEnhancer (S)	PESQ-WB	3.69	—	Unverified
7	MambAttention	PESQ-WB	3.67	—	Unverified
8	MP-SENet	PESQ-WB	3.62	—	Unverified
9	xLSTM-SENet	PESQ-WB	3.59	—	Unverified
10	BSRNN-S + MRSD	PESQ-WB	3.53	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	Inter-Channel Conv-TasNet	SDR	19.67	—	Unverified
2	CA Dense U-Net (Complex)	SDR	18.64	—	Unverified
3	Dense U-Net (Complex)	SDR	18.4	—	Unverified
4	Dense U-Net (Real)	SDR	16.86	—	Unverified
5	U-Net (Real)	SDR	15.97	—	Unverified
6	Noisy/unprocessed	SDR	6.5	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	Schrödinger Bridge (PESQ loss)	PESQ-WB	3.09	—	Unverified
2	SGMSE+	PESQ-WB	2.5	—	Unverified
3	Demucs v4	PESQ-WB	2.37	—	Unverified
4	Schrödinger Bridge	PESQ-WB	2.33	—	Unverified
5	Conv-TasNet	PESQ-WB	2.31	—	Unverified
6	CDiffuSE	PESQ-WB	1.6	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	ReVISE (ch2)	Audio Quality MOS	4.19	—	Unverified
2	ReVISE (bf)	Audio Quality MOS	4.11	—	Unverified
3	Demucs (ch2)	Audio Quality MOS	2.95	—	Unverified
4	Demucs (bf)	Audio Quality MOS	2.39	—	Unverified
5	MaxDI (Baseline)	PESQ	1.17	—	Unverified
6	DAJA (MVDR,HMA,1000) (Overlapped Speech)	SDR	-4.76	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	ZipEnhancer (M)	PESQ-NB	4.08	—	Unverified
2	DCCRN-MC	PESQ-NB	3.21	—	Unverified
3	DCCRN-M	PESQ-NB	3.15	—	Unverified
4	DCCRN	PESQ-NB	3.04	—	Unverified
5	RNN-Modulation	PESQ-WB	2.75	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	MambAttention	ESTOI	0.8	—	Unverified
2	SEMamba	ESTOI	0.8	—	Unverified
3	xLSTM-SENet	ESTOI	0.8	—	Unverified
4	MP-SENet	ESTOI	0.79	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	SepFormer	PESQ	2.84	—	Unverified
2	DTLN	PESQ	2.23	—	Unverified
3	Unprocessed	PESQ	1.83	—	Unverified
4	Non-Real-Time MultiScale+	PESQ	1.52	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	DCUNet-MC	PESQ-NB	3.44	—	Unverified
2	DCCRN-M	PESQ-NB	3.28	—	Unverified
3	DCUNet	PESQ-NB	3.25	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	CleanMel-L-map	DNSMOS	3.82	—	Unverified
2	SpatialNet	DNSMOS BAK	3.43	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	rose_cd(PESQ )	PESQ	3.99	—	Unverified
2	ROSE-CD	PESQ	3.49	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	Wave-U-Net	CBAK	3.24	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	Audio-Visual concat-ref	PESQ	2.7	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	SE-MelGAN	Audio Quality MOS	3.1	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	DeFT-AN	PESQ	3.01	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	Audio-Visual concat-ref	PESQ	3.03	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	SepFormer	PESQ	3.07	—	Unverified