Speech Enhancement

Speech Enhancement is a signal processing task that involves improving the quality of speech signals captured under noisy or degraded conditions. The goal of speech enhancement is to make speech signals clearer, more intelligible, and more pleasant to listen to, which can be used for various applications such as voice recognition, teleconferencing, and hearing aids. A representative Github project with online demo : ClearerVoice-Studio.

( Image credit: A Fully Convolutional Neural Network For Speech Enhancement )

Papers

Recently Added Most Hyped Most Active Needs Verification Most Verified

Showing 751–800 of 982 papers

Title	Date	Tasks	Status
Time-Domain Multi-modal Bone/air Conducted Speech Enhancement	Nov 22, 2019	Ensemble LearningSpeech Enhancement	—Unverified
Time-Domain Speech Enhancement for Robust Automatic Speech Recognition	Oct 24, 2022	Automatic Speech RecognitionAutomatic Speech Recognition (ASR)	—Unverified
Time-Variance Aware Real-Time Speech Enhancement	Feb 25, 2023	Acoustic echo cancellationSpeech Enhancement	—Unverified
To Dereverb Or Not to Dereverb? Perceptual Studies On Real-Time Dereverberation Targets	Jun 16, 2022	DenoisingSpeech Enhancement	—Unverified
TouchTTS: An Embarrassingly Simple TTS Framework that Everyone Can Touch	Dec 11, 2024	Denoisingspeaker-diarization	—Unverified
Towards Advanced Speech Signal Processing: A Statistical Perspective on Convolution-Based Architectures and its Applications	Nov 20, 2024	Emotion RecognitionSpeaker Identification	—Unverified
Towards efficient models for real-time deep noise suppression	Jan 22, 2021	Speech Enhancement	—Unverified
Towards Generalized Speech Enhancement with Generative Adversarial Networks	Apr 6, 2019	Generative Adversarial NetworkSpeech Enhancement	—Unverified
Towards Low-distortion Multi-channel Speech Enhancement: The ESPNet-SE Submission to The L3DAS22 Challenge	Feb 24, 2022	Speech Enhancement	—Unverified
Towards Robust Real-time Audio-Visual Speech Enhancement	Dec 16, 2021	Speech Enhancement	—Unverified
Towards Robust Speaker Verification with Target Speaker Enhancement	Mar 16, 2021	Speaker VerificationSpeech Enhancement	—Unverified
Towards speech enhancement using a variational U-Net architecture	Dec 7, 2020	DenoisingSpectral Reconstruction	—Unverified
Towards Sub-millisecond Latency Real-Time Speech Enhancement Models on Hearables	Sep 26, 2024	Speech Enhancement	—Unverified
Toward Universal Speech Enhancement for Diverse Input Conditions	Sep 29, 2023	DenoisingSpeech Enhancement	—Unverified
Trainable Adaptive Window Switching for Speech Enhancement	Nov 5, 2018	Speech Enhancement	—Unverified
Training Speech Enhancement Systems with Noisy Speech Datasets	May 26, 2021	Automatic Speech RecognitionAutomatic Speech Recognition (ASR)	—Unverified
TRAMBA: A Hybrid Transformer and Mamba Architecture for Practical Audio and Bone Conduction Speech Super Resolution and Enhancement on Mobile and Wearable Platforms	May 2, 2024	MambaSpeech Enhancement	—Unverified
Transformers in Speech Processing: A Survey	Mar 21, 2023	Automatic Speech RecognitionSpeech Enhancement	—Unverified
Transformers with Competitive Ensembles of Independent Mechanisms	Feb 27, 2021	Speech Enhancement	—Unverified
Translation-Invariant Shrinkage/Thresholding of Group Sparse Signals	Mar 29, 2013	BlockingDenoising	—Unverified
TridentSE: Guiding Speech Enhancement with 32 Global Tokens	Oct 24, 2022	Speech Enhancement	—Unverified
TRNet: Two-level Refinement Network leveraging Speech Enhancement for Noise Robust Speech Emotion Recognition	Apr 19, 2024	Emotion RecognitionSpeech Emotion Recognition	—Unverified
TSTNN: Two-stage Transformer based Neural Network for Speech Enhancement in the Time Domain	Mar 18, 2021	DecoderDenoising	—Unverified
TS-URGENet: A Three-stage Universal Robust and Generalizable Speech Enhancement Network	May 24, 2025	Speech Enhancement	—Unverified
Convolutional Recurrent Neural Network with Attention for 3D Speech Enhancement	Jun 8, 2023	DenoisingSpeech Enhancement	—Unverified
Two-Step Knowledge Distillation for Tiny Speech Enhancement	Sep 15, 2023	Knowledge DistillationModel Compression	—Unverified
Ultra-Lightweight Speech Separation via Group Communication	Nov 18, 2020	QuantizationSpeech Enhancement	—Unverified
Ultra Low Complexity Deep Learning Based Noise Suppression	Dec 13, 2023	Deep LearningSpeech Enhancement	—Unverified
Ultra-Low Latency Speech Enhancement - A Comprehensive Study	Sep 16, 2024	MambaSpeech Enhancement	—Unverified
Uncertainty Estimation in Deep Speech Enhancement Using Complex Gaussian Mixture Models	Dec 9, 2022	Speech EnhancementUncertainty Quantification	—Unverified
UNetGAN: A Robust Speech Enhancement Approach in Time Domain for Extremely Low Signal-to-noise Ratio Condition	Oct 29, 2020	Speech Enhancement	—Unverified
Unified Architecture and Unsupervised Speech Disentanglement for Speaker Embedding-Free Enrollment in Personalized Speech Enhancement	May 18, 2025	DisentanglementSpeech Enhancement	—Unverified
Unifying Robustness and Fidelity: A Comprehensive Study of Pretrained Generative Methods for Speech Enhancement in Adverse Conditions	Sep 16, 2023	Speech Enhancement	—Unverified
Unrestricted Global Phase Bias-Aware Single-channel Speech Enhancement with Conformer-based Metric GAN	Feb 13, 2024	Speech Enhancement	—Unverified
Unsupervised Face-Masked Speech Enhancement Using Generative Adversarial Networks With Human-in-the-Loop Assessment Metrics	Jul 2, 2024	Speech Enhancement	—Unverified
Unsupervised Noise adaptation using Data Simulation	Feb 23, 2023	Domain AdaptationGenerative Adversarial Network	—Unverified
Unsupervised Sound Separation Using Mixture Invariant Training	Jun 23, 2020	Domain AdaptationSpeech Enhancement	—Unverified
Unsupervised Speech Enhancement Based on Multichannel NMF-Informed Beamforming for Noise-Robust Automatic Speech Recognition	Mar 22, 2019	Automatic Speech RecognitionAutomatic Speech Recognition (ASR)	—Unverified
Unsupervised speech enhancement with deep dynamical generative speech and noise models	Jun 13, 2023	Speech Enhancement	—Unverified
Unsupervised Speech Enhancement with speech recognition embedding and disentanglement losses	Nov 16, 2021	DisentanglementSpeech Enhancement	—Unverified
UP-Cycle-SENet: Unpaired Phase-aware Speech Enhancement Using Deep Complex Cycle Adversarial Networks	Jan 22, 2025	Speech Enhancement	—Unverified
URGENT Challenge: Universality, Robustness, and Generalizability For Speech Enhancement	Jun 7, 2024	Bandwidth ExtensionDenoising	—Unverified
uSee: Unified Speech Enhancement and Editing with Conditional Diffusion Models	Oct 2, 2023	DenoisingSelf-Supervised Learning	—Unverified
Using recurrences in time and frequency within U-net architecture for speech enhancement	Nov 16, 2018	Speech Enhancement	—Unverified
Using RLHF to align speech enhancement approaches to mean-opinion quality scores	Oct 17, 2024	Speech Enhancement	—Unverified
Utterance-Wise Meeting Transcription System Using Asynchronous Distributed Microphones	Jul 31, 2020	Automatic Speech RecognitionAutomatic Speech Recognition (ASR)	—Unverified
Variational Autoencoder for Personalized Pathological Speech Enhancement	Mar 18, 2025	Speech Enhancement	—Unverified
Variational Autoencoder for Speech Enhancement with a Noise-Aware Encoder	Feb 17, 2021	Speech Enhancement	—Unverified
Visual Speech Enhancement	Nov 23, 2017	LipreadingSpeech Enhancement	—Unverified
Voice Activity Detection using Temporal Characteristics of Autocorrelation Lag and Maximum Spectral Amplitude in Sub-bands	Dec 1, 2014	Action DetectionActivity Detection	—Unverified

Show:10 25 50

← PrevPage 16 of 20Next →

All datasets VoiceBank + DEMAND Deep Noise Suppression (DNS) Challenge CHiME-3 EARS-WHAM EasyCom DNS Challenge VB-DemandEx WHAMR!WSJ0 + DEMAND + RNNoise RealMAN VoiceBank+DEMAND DEMAND

Benchmark Results

#	Model	Metric	Claimed	Verified	Status
1	ROSE-CD(PESQ)	PESQ (wb)	3.99	—	Unverified
2	PESQetarian	PESQ (wb)	3.82	—	Unverified
3	Mamba-SEUNet L (+PCS)	PESQ (wb)	3.73	—	Unverified
4	Schrödinger bridge (PESQ loss)	PESQ (wb)	3.7	—	Unverified
5	SEMamba (+PCS)	PESQ (wb)	3.69	—	Unverified
6	ZipEnhancer (S, \lamba_6 = 0)	PESQ (wb)	3.63	—	Unverified
7	PrimeK-Net	PESQ (wb)	3.61	—	Unverified
8	ZipEnhancer (S, \lamba_6 = 0.2)	PESQ (wb)	3.61	—	Unverified
9	MP-SENet	PESQ (wb)	3.6	—	Unverified
10	PCS_CS_WAVLM	PESQ (wb)	3.54	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	BSRNN-S + MGD	SI-SDR-WB	21.4	—	Unverified
2	DTLN	SI-SDR-WB	16.34	—	Unverified
3	Non-Real-Time MultiScale+	SI-SDR-WB	16.22	—	Unverified
4	ZipEnhancer (M)	PESQ-WB	3.81	—	Unverified
5	TF-Locoformer (M)	PESQ-WB	3.72	—	Unverified
6	ZipEnhancer (S)	PESQ-WB	3.69	—	Unverified
7	MambAttention	PESQ-WB	3.67	—	Unverified
8	MP-SENet	PESQ-WB	3.62	—	Unverified
9	xLSTM-SENet	PESQ-WB	3.59	—	Unverified
10	BSRNN-S + MRSD	PESQ-WB	3.53	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	Inter-Channel Conv-TasNet	SDR	19.67	—	Unverified
2	CA Dense U-Net (Complex)	SDR	18.64	—	Unverified
3	Dense U-Net (Complex)	SDR	18.4	—	Unverified
4	Dense U-Net (Real)	SDR	16.86	—	Unverified
5	U-Net (Real)	SDR	15.97	—	Unverified
6	Noisy/unprocessed	SDR	6.5	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	Schrödinger Bridge (PESQ loss)	PESQ-WB	3.09	—	Unverified
2	SGMSE+	PESQ-WB	2.5	—	Unverified
3	Demucs v4	PESQ-WB	2.37	—	Unverified
4	Schrödinger Bridge	PESQ-WB	2.33	—	Unverified
5	Conv-TasNet	PESQ-WB	2.31	—	Unverified
6	CDiffuSE	PESQ-WB	1.6	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	ReVISE (ch2)	Audio Quality MOS	4.19	—	Unverified
2	ReVISE (bf)	Audio Quality MOS	4.11	—	Unverified
3	Demucs (ch2)	Audio Quality MOS	2.95	—	Unverified
4	Demucs (bf)	Audio Quality MOS	2.39	—	Unverified
5	MaxDI (Baseline)	PESQ	1.17	—	Unverified
6	DAJA (MVDR,HMA,1000) (Overlapped Speech)	SDR	-4.76	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	ZipEnhancer (M)	PESQ-NB	4.08	—	Unverified
2	DCCRN-MC	PESQ-NB	3.21	—	Unverified
3	DCCRN-M	PESQ-NB	3.15	—	Unverified
4	DCCRN	PESQ-NB	3.04	—	Unverified
5	RNN-Modulation	PESQ-WB	2.75	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	MambAttention	ESTOI	0.8	—	Unverified
2	SEMamba	ESTOI	0.8	—	Unverified
3	xLSTM-SENet	ESTOI	0.8	—	Unverified
4	MP-SENet	ESTOI	0.79	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	SepFormer	PESQ	2.84	—	Unverified
2	DTLN	PESQ	2.23	—	Unverified
3	Unprocessed	PESQ	1.83	—	Unverified
4	Non-Real-Time MultiScale+	PESQ	1.52	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	DCUNet-MC	PESQ-NB	3.44	—	Unverified
2	DCCRN-M	PESQ-NB	3.28	—	Unverified
3	DCUNet	PESQ-NB	3.25	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	CleanMel-L-map	DNSMOS	3.82	—	Unverified
2	SpatialNet	DNSMOS BAK	3.43	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	rose_cd(PESQ )	PESQ	3.99	—	Unverified
2	ROSE-CD	PESQ	3.49	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	Wave-U-Net	CBAK	3.24	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	Audio-Visual concat-ref	PESQ	2.7	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	SE-MelGAN	Audio Quality MOS	3.1	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	DeFT-AN	PESQ	3.01	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	Audio-Visual concat-ref	PESQ	3.03	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	SepFormer	PESQ	3.07	—	Unverified