Speech Enhancement

Speech Enhancement is a signal processing task that involves improving the quality of speech signals captured under noisy or degraded conditions. The goal of speech enhancement is to make speech signals clearer, more intelligible, and more pleasant to listen to, which can be used for various applications such as voice recognition, teleconferencing, and hearing aids. A representative Github project with online demo : ClearerVoice-Studio.

( Image credit: A Fully Convolutional Neural Network For Speech Enhancement )

Papers

Recently Added Most Hyped Most Active Needs Verification Most Verified

Showing 601–650 of 982 papers

Title	Date	Tasks	Status
Speech Modeling with a Hierarchical Transformer Dynamical VAE	Mar 7, 2023	Speech Enhancement	—Unverified
Speech Quality Assessment Model Based on Mixture of Experts: System-Level Performance Enhancement and Utterance-Level Challenge Analysis	Jul 8, 2025	Data AugmentationMixture-of-Experts	—Unverified
SpeechX: Neural Codec Language Model as a Versatile Speech Transformer	Aug 14, 2023	Language ModelingLanguage Modelling	—Unverified
Spiking Structured State Space Model for Monaural Speech Enhancement	Sep 7, 2023	Speech EnhancementState Space Models	—Unverified
Spoken Speech Enhancement using EEG	Sep 13, 2019	EEGElectroencephalogram (EEG)	—Unverified
SRIB-LEAP submission to Far-field Multi-Channel Speech Enhancement Challenge for Video Conferencing	Jun 24, 2021	Speech Enhancement	—Unverified
Stable Training of DNN for Speech Enhancement based on Perceptually-Motivated Black-Box Cost Function	Feb 14, 2020	Reinforcement LearningSpeech Enhancement	—Unverified
Stack Less, Repeat More: A Block Reusing Approach for Progressive Speech Enhancement	May 26, 2025	DecoderSpeech Enhancement	—Unverified
Statistical Speech Enhancement Based on Probabilistic Integration of Variational Autoencoder and Non-Negative Matrix Factorization	Oct 31, 2017	Speech Enhancement	—Unverified
Stereo Speech Enhancement Using Custom Mid-Side Signals and Monaural Processing	Nov 25, 2022	Speech Enhancement	—Unverified
Streaming Noise Context Aware Enhancement For Automatic Speech Recognition in Multi-Talker Environments	May 17, 2022	Automatic Speech RecognitionAutomatic Speech Recognition (ASR)	—Unverified
Student-Teacher Learning for BLSTM Mask-based Speech Enhancement	Mar 27, 2018	Speech Enhancementspeech-recognition	—Unverified
Study of Lightweight Transformer Architectures for Single-Channel Speech Enhancement	May 27, 2025	Speech Enhancement	—Unverified
Sub-Band Knowledge Distillation Framework for Speech Enhancement	May 29, 2020	Knowledge DistillationSpeech Enhancement	—Unverified
Subspace Hybrid Beamforming for Head-worn Microphone Arrays	Mar 15, 2023	DenoisingSpeech Enhancement	—Unverified
Subspace Hybrid MVDR Beamforming for Augmented Hearing	Nov 30, 2023	Computational EfficiencySpeech Enhancement	—Unverified
SuperM2M: Supervised and Mixture-to-Mixture Co-Learning for Speech Enhancement and Noise-Robust ASR	Mar 15, 2024	Speaker SeparationSpeech Enhancement	—Unverified
Supervised Speech Separation Based on Deep Learning: An Overview	Aug 24, 2017	Deep LearningSpeaker Separation	—Unverified
SwinLip: An Efficient Visual Speech Encoder for Lip Reading Using Swin Transformer	May 7, 2025	Audio-Visual Speech RecognitionLip Reading	—Unverified
Switching Variational Auto-Encoders for Noise-Agnostic Audio-visual Speech Enhancement	Feb 8, 2021	Speech Enhancement	—Unverified
Tackling real noisy reverberant meetings with all-neural source separation, counting, and diarization system	Mar 9, 2020	Allspeaker-diarization	—Unverified
Taco-VC: A Single Speaker Tacotron based Voice Conversion with Limited Data	Apr 6, 2019	Phoneme RecognitionSpeech Enhancement	—Unverified
TAPS: Throat and Acoustic Paired Speech Dataset for Deep Learning-Based Speech Enhancement	Feb 17, 2025	Speech Enhancement	—Unverified
Target Speech Extraction with Conditional Diffusion Model	Aug 8, 2023	Denoisingmodel	—Unverified
Task-Aware Unified Source Separation	Oct 31, 2024	Audio Source SeparationMusic Source Separation	—Unverified
Task-aware Warping Factors in Mask-based Speech Enhancement	Aug 27, 2021	Automatic Speech RecognitionAutomatic Speech Recognition (ASR)	—Unverified
Task splitting for DNN-based acoustic echo and noise removal	May 13, 2022	Acoustic echo cancellationSpeech Enhancement	—Unverified
TCG CREST System Description for the Second DISPLACE Challenge	Sep 16, 2024	Action DetectionActivity Detection	—Unverified
Tdcgan: Temporal Dilated Convolutional Generative Adversarial Network for End-to-end Speech Enhancement	Sep 30, 2020	Generative Adversarial NetworkSpeech Enhancement	—Unverified
TEA-PSE 3.0: Tencent-Ethereal-Audio-Lab Personalized Speech Enhancement System For ICASSP 2023 DNS Challenge	Mar 14, 2023	Speech Enhancement	—Unverified
Tensor-Train Long Short-Term Memory for Monaural Speech Enhancement	Dec 25, 2018	Speech EnhancementSpeech Separation	—Unverified
Test-Time Adaptation Toward Personalized Speech Enhancement: Zero-Shot Learning with Knowledge Distillation	May 8, 2021	DenoisingKnowledge Distillation	—Unverified
TFCN: Temporal-Frequential Convolutional Network for Single-Channel Speech Enhancement	Jan 3, 2022	Speech Enhancement	—Unverified
TF-Mamba: A Time-Frequency Network for Sound Source Localization	Sep 8, 2024	MambaSound Source Localization	—Unverified
The Conversation: Deep Audio-Visual Speech Enhancement	Apr 11, 2018	Speech Enhancement	—Unverified
The Effect of Training Dataset Size on Discriminative and Diffusion-Based Speech Enhancement Systems	Jun 10, 2024	DiversityImage Generation	—Unverified
The fifth 'CHiME' Speech Separation and Recognition Challenge: Dataset, task and baselines	Mar 28, 2018	Automatic Speech RecognitionAutomatic Speech Recognition (ASR)	—Unverified
The future of hearing aid technology	Apr 13, 2023	Speech Enhancement	—Unverified
The HUAWEI Speaker Diarisation System for the VoxCeleb Speaker Diarisation Challenge	Oct 22, 2020	Action DetectionActivity Detection	—Unverified
The impact of removing head movements on audio-visual speech enhancement	Feb 1, 2022	Speech Enhancement	—Unverified
The INTERSPEECH 2020 Deep Noise Suppression Challenge: Datasets, Subjective Speech Quality and Testing Framework	Jan 23, 2020	Speech Enhancement	—Unverified
The INTERSPEECH 2020 Deep Noise Suppression Challenge: Datasets, Subjective Testing Framework, and Challenge Results	May 16, 2020	Speech Enhancement	—Unverified
The NPU-Elevoc Personalized Speech Enhancement System for ICASSP2023 DNS Challenge	Mar 13, 2023	Speech Enhancement	—Unverified
The NTNU Taiwanese ASR System for Formosa Speech Recognition Challenge 2020	Apr 9, 2021	Data AugmentationSpeech Enhancement	—Unverified
The PCG-AIID System for L3DAS22 Challenge: MIMO and MISO convolutional recurrent Network for Multi Channel Speech Enhancement and Speech Recognition	Feb 21, 2022	DenoisingSpeech Denoising	—Unverified
The PESQetarian: On the Relevance of Goodhart's Law for Speech Enhancement	Jun 5, 2024	Speech Enhancement	—Unverified
The Potential of Neural Speech Synthesis-based Data Augmentation for Personalized Speech Enhancement	Nov 14, 2022	Data AugmentationSpeech Enhancement	—Unverified
The RoyalFlush System of Speech Recognition for M2MeT Challenge	Feb 3, 2022	Automatic Speech RecognitionAutomatic Speech Recognition (ASR)	—Unverified
The Speed Submission to DIHARD II: Contributions & Lessons Learned	Nov 6, 2019	Action DetectionActivity Detection	—Unverified
Thunder : Unified Regression-Diffusion Speech Enhancement with a Single Reverse Step using Brownian Bridge	Jun 10, 2024	regressionSpeech Enhancement	—Unverified

Show:10 25 50

← PrevPage 13 of 20Next →

All datasets VoiceBank + DEMAND Deep Noise Suppression (DNS) Challenge CHiME-3 EARS-WHAM EasyCom DNS Challenge VB-DemandEx WHAMR!WSJ0 + DEMAND + RNNoise RealMAN VoiceBank+DEMAND DEMAND

Benchmark Results

#	Model	Metric	Claimed	Verified	Status
1	ROSE-CD(PESQ)	PESQ (wb)	3.99	—	Unverified
2	PESQetarian	PESQ (wb)	3.82	—	Unverified
3	Mamba-SEUNet L (+PCS)	PESQ (wb)	3.73	—	Unverified
4	Schrödinger bridge (PESQ loss)	PESQ (wb)	3.7	—	Unverified
5	SEMamba (+PCS)	PESQ (wb)	3.69	—	Unverified
6	ZipEnhancer (S, \lamba_6 = 0)	PESQ (wb)	3.63	—	Unverified
7	PrimeK-Net	PESQ (wb)	3.61	—	Unverified
8	ZipEnhancer (S, \lamba_6 = 0.2)	PESQ (wb)	3.61	—	Unverified
9	MP-SENet	PESQ (wb)	3.6	—	Unverified
10	PCS_CS_WAVLM	PESQ (wb)	3.54	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	BSRNN-S + MGD	SI-SDR-WB	21.4	—	Unverified
2	DTLN	SI-SDR-WB	16.34	—	Unverified
3	Non-Real-Time MultiScale+	SI-SDR-WB	16.22	—	Unverified
4	ZipEnhancer (M)	PESQ-WB	3.81	—	Unverified
5	TF-Locoformer (M)	PESQ-WB	3.72	—	Unverified
6	ZipEnhancer (S)	PESQ-WB	3.69	—	Unverified
7	MambAttention	PESQ-WB	3.67	—	Unverified
8	MP-SENet	PESQ-WB	3.62	—	Unverified
9	xLSTM-SENet	PESQ-WB	3.59	—	Unverified
10	BSRNN-S + MRSD	PESQ-WB	3.53	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	Inter-Channel Conv-TasNet	SDR	19.67	—	Unverified
2	CA Dense U-Net (Complex)	SDR	18.64	—	Unverified
3	Dense U-Net (Complex)	SDR	18.4	—	Unverified
4	Dense U-Net (Real)	SDR	16.86	—	Unverified
5	U-Net (Real)	SDR	15.97	—	Unverified
6	Noisy/unprocessed	SDR	6.5	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	Schrödinger Bridge (PESQ loss)	PESQ-WB	3.09	—	Unverified
2	SGMSE+	PESQ-WB	2.5	—	Unverified
3	Demucs v4	PESQ-WB	2.37	—	Unverified
4	Schrödinger Bridge	PESQ-WB	2.33	—	Unverified
5	Conv-TasNet	PESQ-WB	2.31	—	Unverified
6	CDiffuSE	PESQ-WB	1.6	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	ReVISE (ch2)	Audio Quality MOS	4.19	—	Unverified
2	ReVISE (bf)	Audio Quality MOS	4.11	—	Unverified
3	Demucs (ch2)	Audio Quality MOS	2.95	—	Unverified
4	Demucs (bf)	Audio Quality MOS	2.39	—	Unverified
5	MaxDI (Baseline)	PESQ	1.17	—	Unverified
6	DAJA (MVDR,HMA,1000) (Overlapped Speech)	SDR	-4.76	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	ZipEnhancer (M)	PESQ-NB	4.08	—	Unverified
2	DCCRN-MC	PESQ-NB	3.21	—	Unverified
3	DCCRN-M	PESQ-NB	3.15	—	Unverified
4	DCCRN	PESQ-NB	3.04	—	Unverified
5	RNN-Modulation	PESQ-WB	2.75	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	MambAttention	ESTOI	0.8	—	Unverified
2	SEMamba	ESTOI	0.8	—	Unverified
3	xLSTM-SENet	ESTOI	0.8	—	Unverified
4	MP-SENet	ESTOI	0.79	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	SepFormer	PESQ	2.84	—	Unverified
2	DTLN	PESQ	2.23	—	Unverified
3	Unprocessed	PESQ	1.83	—	Unverified
4	Non-Real-Time MultiScale+	PESQ	1.52	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	DCUNet-MC	PESQ-NB	3.44	—	Unverified
2	DCCRN-M	PESQ-NB	3.28	—	Unverified
3	DCUNet	PESQ-NB	3.25	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	CleanMel-L-map	DNSMOS	3.82	—	Unverified
2	SpatialNet	DNSMOS BAK	3.43	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	rose_cd(PESQ )	PESQ	3.99	—	Unverified
2	ROSE-CD	PESQ	3.49	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	Wave-U-Net	CBAK	3.24	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	Audio-Visual concat-ref	PESQ	2.7	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	SE-MelGAN	Audio Quality MOS	3.1	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	DeFT-AN	PESQ	3.01	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	Audio-Visual concat-ref	PESQ	3.03	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	SepFormer	PESQ	3.07	—	Unverified