Speech Enhancement

Speech Enhancement is a signal processing task that involves improving the quality of speech signals captured under noisy or degraded conditions. The goal of speech enhancement is to make speech signals clearer, more intelligible, and more pleasant to listen to, which can be used for various applications such as voice recognition, teleconferencing, and hearing aids. A representative Github project with online demo : ClearerVoice-Studio.

( Image credit: A Fully Convolutional Neural Network For Speech Enhancement )

Papers

Recently Added Most Hyped Most Active Needs Verification Most Verified

Showing 901–950 of 982 papers

Title	Date	Tasks	Status
Tdcgan: Temporal Dilated Convolutional Generative Adversarial Network for End-to-end Speech Enhancement	Sep 30, 2020	Generative Adversarial NetworkSpeech Enhancement	—Unverified
TEA-PSE 3.0: Tencent-Ethereal-Audio-Lab Personalized Speech Enhancement System For ICASSP 2023 DNS Challenge	Mar 14, 2023	Speech Enhancement	—Unverified
Tensor-Train Long Short-Term Memory for Monaural Speech Enhancement	Dec 25, 2018	Speech EnhancementSpeech Separation	—Unverified
Test-Time Adaptation Toward Personalized Speech Enhancement: Zero-Shot Learning with Knowledge Distillation	May 8, 2021	DenoisingKnowledge Distillation	—Unverified
TFCN: Temporal-Frequential Convolutional Network for Single-Channel Speech Enhancement	Jan 3, 2022	Speech Enhancement	—Unverified
TF-Mamba: A Time-Frequency Network for Sound Source Localization	Sep 8, 2024	MambaSound Source Localization	—Unverified
The Conversation: Deep Audio-Visual Speech Enhancement	Apr 11, 2018	Speech Enhancement	—Unverified
The Effect of Training Dataset Size on Discriminative and Diffusion-Based Speech Enhancement Systems	Jun 10, 2024	DiversityImage Generation	—Unverified
The fifth 'CHiME' Speech Separation and Recognition Challenge: Dataset, task and baselines	Mar 28, 2018	Automatic Speech RecognitionAutomatic Speech Recognition (ASR)	—Unverified
The future of hearing aid technology	Apr 13, 2023	Speech Enhancement	—Unverified
The HUAWEI Speaker Diarisation System for the VoxCeleb Speaker Diarisation Challenge	Oct 22, 2020	Action DetectionActivity Detection	—Unverified
The impact of removing head movements on audio-visual speech enhancement	Feb 1, 2022	Speech Enhancement	—Unverified
Self-Supervised Learning from Contrastive Mixtures for Personalized Speech Enhancement	Nov 6, 2020	Contrastive LearningFew-Shot Learning	CodeCode Available
Self-Supervised Learning for Speech Enhancement through Synthesis	Nov 4, 2022	DenoisingSelf-Supervised Learning	CodeCode Available
Face Landmark-based Speaker-Independent Audio-Visual Speech Enhancement in Multi-Talker Environments	Nov 6, 2018	Speech EnhancementSpeech Separation	CodeCode Available
Disentanglement Learning for Variational Autoencoders Applied to Audio-Visual Speech Enhancement	May 19, 2021	AttributeDecoder	CodeCode Available
Exploiting Low-Rank Tensor-Train Deep Neural Networks Based on Riemannian Gradient Descent With Illustrations of Speech Processing	Mar 11, 2022	Speech EnhancementSpoken Command Recognition	CodeCode Available
rVAD: An Unsupervised Segment-Based Robust Voice Activity Detection Method	Jun 9, 2019	Action DetectionActivity Detection	CodeCode Available
High-Resolution Speech Restoration with Latent Diffusion Model	Sep 17, 2024	modelSpeech Enhancement	CodeCode Available
ROSE: A Recognition-Oriented Speech Enhancement Framework in Air Traffic Control Using Multi-Objective Learning	Dec 11, 2023	Automatic Speech RecognitionAutomatic Speech Recognition (ASR)	CodeCode Available
Room Impulse Response Estimation through Optimal Mass Transport Barycenters	Mar 18, 2025	Speech Enhancement	CodeCode Available
RHR-Net: A Residual Hourglass Recurrent Neural Network for Speech Enhancement	Apr 15, 2019	Speech Enhancement	CodeCode Available
Direction of Arrival Correction through Speech Quality Feedback	Aug 13, 2024	Speech Enhancement	CodeCode Available
Exploiting Hidden Representations from a DNN-based Speech Recogniser for Speech Intelligibility Prediction in Hearing-impaired Listeners	Apr 8, 2022	PredictionSpeech Enhancement	CodeCode Available
Towards a Competitive End-to-End Speech Recognition for CHiME-6 Dinner Party Transcription	Apr 22, 2020	Data AugmentationSpeech Enhancement	CodeCode Available
Guided Source Separation Meets a Strong ASR Backend: Hitachi/Paderborn University Joint Investigation for Dinner Party ASR	May 29, 2019	Automatic Speech RecognitionAutomatic Speech Recognition (ASR)	CodeCode Available
PlumberNet: Fixing interference leakage after GEV beamforming	Sep 10, 2023	Speech Enhancement	CodeCode Available
Adversarial Privacy Protection on Speech Enhancement	Jun 16, 2022	Speech Enhancement	CodeCode Available
Attention-based multi-task learning for speech-enhancement and speaker-identification in multi-speaker dialogue scenario	Jan 7, 2021	Multi-Task LearningSpeaker Identification	CodeCode Available
Speech Enhancement with Overlapped-Frame Information Fusion and Causal Self-Attention	Jan 21, 2025	Speech Enhancement	CodeCode Available
Receptive Field Analysis of Temporal Convolutional Networks for Monaural Speech Dereverberation	Apr 13, 2022	Speech DereverberationSpeech Enhancement	CodeCode Available
A Training and Inference Strategy Using Noisy and Enhanced Speech as Target for Speech Enhancement without Clean Speech	Oct 27, 2022	Speech Enhancement	CodeCode Available
PL-EESR: Perceptual Loss Based END-TO-END Robust Speaker Representation Extraction	Oct 3, 2021	Speaker IdentificationSpeaker Verification	CodeCode Available
Lessons Learned from the URGENT 2024 Speech Enhancement Challenge	Jun 2, 2025	Speech Enhancement	CodeCode Available
Feature Enhancement with Deep Feature Losses for Speaker Verification	Oct 25, 2019	DenoisingSpeaker Verification	CodeCode Available
Speech Enhancement with Zero-Shot Model Selection	Dec 17, 2020	Ensemble Learningmodel	CodeCode Available
Learning with Learned Loss Function: Speech Enhancement with Quality-Net to Improve Perceptual Evaluation of Speech Quality	May 6, 2019	Speech Enhancement	CodeCode Available
Single Channel Speech Enhancement Using U-Net Spiking Neural Networks	Jul 26, 2023	Speech Enhancement	CodeCode Available
Estimation and Restoration of Unknown Nonlinear Distortion using Diffusion	Jan 10, 2025	Audio Effects ModelingQuantization	CodeCode Available
Deep Multi-Frame MVDR Filtering for Single-Microphone Speech Enhancement	Nov 20, 2020	Speech Enhancement	CodeCode Available
The Effect of Spoken Language on Speech Enhancement using Self-Supervised Speech Representation Loss Functions	Jul 27, 2023	Speech Enhancement	CodeCode Available
Language and Noise Transfer in Speech Enhancement Generative Adversarial Network	Dec 18, 2017	Generative Adversarial NetworkSpeech Enhancement	CodeCode Available
Word-level Embeddings for Cross-Task Transfer Learning in Speech Processing	Oct 22, 2019	Automatic Speech RecognitionAutomatic Speech Recognition (ASR)	CodeCode Available
Phase-aware Single-stage Speech Denoising and Dereverberation with U-Net	Jun 1, 2020	DenoisingSpeech Denoising	CodeCode Available
Objective and subjective evaluation of speech enhancement methods in the UDASE task of the 7th CHiME challenge	Feb 2, 2024	Domain AdaptationSpeech Enhancement	CodeCode Available
MMTM: Multimodal Transfer Module for CNN Fusion	Nov 20, 2019	Action RecognitionAction Recognition In Videos	CodeCode Available
Sparse Mixture of Local Experts for Efficient Speech Enhancement	May 16, 2020	Speech DenoisingSpeech Enhancement	CodeCode Available
A fully recurrent feature extraction for single channel speech enhancement	Jun 9, 2020	Speech Enhancement	CodeCode Available
A Perceptual Weighting Filter Loss for DNN Training in Speech Enhancement	May 23, 2019	Speech Enhancement	CodeCode Available
Investigating the effect of residual and highway connections in speech enhancement models	Oct 22, 2018	DenoisingSpeech Denoising	CodeCode Available

Show:10 25 50

← PrevPage 19 of 20Next →

All datasets VoiceBank + DEMAND Deep Noise Suppression (DNS) Challenge CHiME-3 EARS-WHAM EasyCom DNS Challenge VB-DemandEx WHAMR!WSJ0 + DEMAND + RNNoise RealMAN VoiceBank+DEMAND DEMAND

Benchmark Results

#	Model	Metric	Claimed	Verified	Status
1	ROSE-CD(PESQ)	PESQ (wb)	3.99	—	Unverified
2	PESQetarian	PESQ (wb)	3.82	—	Unverified
3	Mamba-SEUNet L (+PCS)	PESQ (wb)	3.73	—	Unverified
4	Schrödinger bridge (PESQ loss)	PESQ (wb)	3.7	—	Unverified
5	SEMamba (+PCS)	PESQ (wb)	3.69	—	Unverified
6	ZipEnhancer (S, \lamba_6 = 0)	PESQ (wb)	3.63	—	Unverified
7	PrimeK-Net	PESQ (wb)	3.61	—	Unverified
8	ZipEnhancer (S, \lamba_6 = 0.2)	PESQ (wb)	3.61	—	Unverified
9	MP-SENet	PESQ (wb)	3.6	—	Unverified
10	PCS_CS_WAVLM	PESQ (wb)	3.54	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	BSRNN-S + MGD	SI-SDR-WB	21.4	—	Unverified
2	DTLN	SI-SDR-WB	16.34	—	Unverified
3	Non-Real-Time MultiScale+	SI-SDR-WB	16.22	—	Unverified
4	ZipEnhancer (M)	PESQ-WB	3.81	—	Unverified
5	TF-Locoformer (M)	PESQ-WB	3.72	—	Unverified
6	ZipEnhancer (S)	PESQ-WB	3.69	—	Unverified
7	MambAttention	PESQ-WB	3.67	—	Unverified
8	MP-SENet	PESQ-WB	3.62	—	Unverified
9	xLSTM-SENet	PESQ-WB	3.59	—	Unverified
10	BSRNN-S + MRSD	PESQ-WB	3.53	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	Inter-Channel Conv-TasNet	SDR	19.67	—	Unverified
2	CA Dense U-Net (Complex)	SDR	18.64	—	Unverified
3	Dense U-Net (Complex)	SDR	18.4	—	Unverified
4	Dense U-Net (Real)	SDR	16.86	—	Unverified
5	U-Net (Real)	SDR	15.97	—	Unverified
6	Noisy/unprocessed	SDR	6.5	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	Schrödinger Bridge (PESQ loss)	PESQ-WB	3.09	—	Unverified
2	SGMSE+	PESQ-WB	2.5	—	Unverified
3	Demucs v4	PESQ-WB	2.37	—	Unverified
4	Schrödinger Bridge	PESQ-WB	2.33	—	Unverified
5	Conv-TasNet	PESQ-WB	2.31	—	Unverified
6	CDiffuSE	PESQ-WB	1.6	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	ReVISE (ch2)	Audio Quality MOS	4.19	—	Unverified
2	ReVISE (bf)	Audio Quality MOS	4.11	—	Unverified
3	Demucs (ch2)	Audio Quality MOS	2.95	—	Unverified
4	Demucs (bf)	Audio Quality MOS	2.39	—	Unverified
5	MaxDI (Baseline)	PESQ	1.17	—	Unverified
6	DAJA (MVDR,HMA,1000) (Overlapped Speech)	SDR	-4.76	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	ZipEnhancer (M)	PESQ-NB	4.08	—	Unverified
2	DCCRN-MC	PESQ-NB	3.21	—	Unverified
3	DCCRN-M	PESQ-NB	3.15	—	Unverified
4	DCCRN	PESQ-NB	3.04	—	Unverified
5	RNN-Modulation	PESQ-WB	2.75	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	MambAttention	ESTOI	0.8	—	Unverified
2	SEMamba	ESTOI	0.8	—	Unverified
3	xLSTM-SENet	ESTOI	0.8	—	Unverified
4	MP-SENet	ESTOI	0.79	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	SepFormer	PESQ	2.84	—	Unverified
2	DTLN	PESQ	2.23	—	Unverified
3	Unprocessed	PESQ	1.83	—	Unverified
4	Non-Real-Time MultiScale+	PESQ	1.52	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	DCUNet-MC	PESQ-NB	3.44	—	Unverified
2	DCCRN-M	PESQ-NB	3.28	—	Unverified
3	DCUNet	PESQ-NB	3.25	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	CleanMel-L-map	DNSMOS	3.82	—	Unverified
2	SpatialNet	DNSMOS BAK	3.43	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	rose_cd(PESQ )	PESQ	3.99	—	Unverified
2	ROSE-CD	PESQ	3.49	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	Wave-U-Net	CBAK	3.24	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	Audio-Visual concat-ref	PESQ	2.7	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	SE-MelGAN	Audio Quality MOS	3.1	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	DeFT-AN	PESQ	3.01	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	Audio-Visual concat-ref	PESQ	3.03	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	SepFormer	PESQ	3.07	—	Unverified