Speech Enhancement

Speech Enhancement is a signal processing task that involves improving the quality of speech signals captured under noisy or degraded conditions. The goal of speech enhancement is to make speech signals clearer, more intelligible, and more pleasant to listen to, which can be used for various applications such as voice recognition, teleconferencing, and hearing aids. A representative Github project with online demo : ClearerVoice-Studio.

( Image credit: A Fully Convolutional Neural Network For Speech Enhancement )

Papers

Recently Added Most Hyped Most Active Needs Verification Most Verified

Showing 501–550 of 982 papers

Title	Date	Tasks	Status	Hype
Fast Real-time Personalized Speech Enhancement: End-to-End Enhancement Network (E3Net) and Knowledge Distillation	Apr 2, 2022	Automatic Speech RecognitionAutomatic Speech Recognition (ASR)	—Unverified	0
End-to-End Integration of Speech Recognition, Speech Enhancement, and Self-Supervised Learning Representation	Apr 1, 2022	Automatic Speech RecognitionAutomatic Speech Recognition (ASR)	—Unverified	0
Multiple Confidence Gates For Joint Training Of SE And ASR	Apr 1, 2022	Robust Speech RecognitionSpeech Enhancement	—Unverified	0
Perceptual Contrast Stretching on Target Feature for Speech Enhancement	Mar 31, 2022	Speech Enhancement	CodeCode Available	1
SpecGrad: Diffusion Probabilistic Model based Neural Vocoder with Adaptive Noise Spectral Shaping	Mar 31, 2022	DenoisingSpeech Enhancement	—Unverified	0
Speech Enhancement with Score-Based Generative Models in the Complex STFT Domain	Mar 31, 2022	Speech Enhancement	CodeCode Available	1
Audio-Visual Speech Codecs: Rethinking Audio-Visual Speech Enhancement by Re-Synthesis	Mar 31, 2022	Speech Enhancement	CodeCode Available	1
Phase-Aware Deep Speech Enhancement: It's All About The Frame Length	Mar 30, 2022	AllSpeech Enhancement	—Unverified	0
CMGAN: Conformer-based Metric GAN for Speech Enhancement	Mar 28, 2022	Automatic Speech RecognitionAutomatic Speech Recognition (ASR)	CodeCode Available	2
Dual-Path Style Learning for End-to-End Noise-Robust Speech Recognition	Mar 28, 2022	Automatic Speech RecognitionAutomatic Speech Recognition (ASR)	CodeCode Available	1
Speech-enhanced and Noise-aware Networks for Robust Speech Recognition	Mar 25, 2022	Automatic Speech RecognitionAutomatic Speech Recognition (ASR)	CodeCode Available	0
HiFi++: a Unified Framework for Bandwidth Extension and Speech Enhancement	Mar 24, 2022	Audio GenerationBandwidth Extension	CodeCode Available	1
MetricGAN+/-: Increasing Robustness of Noise Reduction on Unseen Data	Mar 23, 2022	Speech Enhancement	—Unverified	0
FullSubNet+: Channel Attention FullSubNet with Complex Spectrograms for Speech Enhancement	Mar 23, 2022	Speech Enhancement	CodeCode Available	2
Joint Noise Reduction and Listening Enhancement for Full-End Speech Enhancement	Mar 22, 2022	Speech Enhancement	—Unverified	0
Investigating self-supervised learning for speech enhancement and separation	Mar 15, 2022	Self-Supervised LearningSpeech Enhancement	—Unverified	0
FB-MSTCN: A Full-Band Single-Channel Speech Enhancement Method Based on Multi-Scale Temporal Convolutional Network	Mar 15, 2022	DenoisingSpeech Denoising	—Unverified	0
Exploiting Low-Rank Tensor-Train Deep Neural Networks Based on Riemannian Gradient Descent With Illustrations of Speech Processing	Mar 11, 2022	Speech EnhancementSpoken Command Recognition	CodeCode Available	0
PercepNet+: A Phase and SNR Aware PercepNet for Real-Time Speech Enhancement	Mar 4, 2022	Speech Enhancement	—Unverified	0
MANNER: Multi-view Attention Network for Noise Erasure	Mar 4, 2022	DecoderSpeech Enhancement	CodeCode Available	1
Integrating Statistical Uncertainty into Neural Network-Based Speech Enhancement	Mar 4, 2022	Speech Enhancement	—Unverified	0
Look\&Listen: Multi-Modal Correlation Learning for Active Speaker Detection and Speech Enhancement	Mar 4, 2022	Active Speaker DetectionMulti-Task Learning	CodeCode Available	1
ICASSP 2022 Acoustic Echo Cancellation Challenge	Feb 27, 2022	Acoustic echo cancellationSpeech Enhancement	CodeCode Available	2
Towards Low-distortion Multi-channel Speech Enhancement: The ESPNet-SE Submission to The L3DAS22 Challenge	Feb 24, 2022	Speech Enhancement	—Unverified	0
Phase Continuity: Learning Derivatives of Phase Spectrum for Speech Enhancement	Feb 24, 2022	Speech Enhancement	—Unverified	0
The PCG-AIID System for L3DAS22 Challenge: MIMO and MISO convolutional recurrent Network for Multi Channel Speech Enhancement and Speech Recognition	Feb 21, 2022	DenoisingSpeech Denoising	—Unverified	0
L3DAS22 Challenge: Learning 3D Audio Sources in a Real Office Environment	Feb 21, 2022	Sound Event Localization and DetectionSpeech Enhancement	CodeCode Available	1
RemixIT: Continual self-training of speech enhancement models via bootstrapped remixing	Feb 17, 2022	Domain AdaptationSpeech Enhancement	CodeCode Available	1
Speech Denoising in the Waveform Domain with Self-Attention	Feb 15, 2022	DecoderDenoising	CodeCode Available	2
EMGSE: Acoustic/EMG Fusion for Multimodal Speech Enhancement	Feb 14, 2022	Electromyography (EMG)Speech Enhancement	—Unverified	0
Low-latency Monaural Speech Enhancement with Deep Filter-bank Equalizer	Feb 14, 2022	Deep LearningSpeech Enhancement	—Unverified	0
A Novel Speech Intelligibility Enhancement Model based on CanonicalCorrelation and Deep Learning	Feb 11, 2022	Speech Enhancement	—Unverified	0
Conditional Diffusion Probabilistic Model for Speech Enhancement	Feb 10, 2022	modelSpeech Enhancement	CodeCode Available	2
Royalflush Speaker Diarization System for ICASSP 2022 Multi-channel Multi-party Meeting Transcription Challenge	Feb 10, 2022	speaker-diarizationSpeaker Diarization	—Unverified	0
Multimodal Audio-Visual Information Fusion using Canonical-Correlated Graph Neural Network for Energy-Efficient Speech Enhancement	Feb 9, 2022	Graph Neural NetworkRepresentation Learning	—Unverified	0
A Speech Intelligibility Enhancement Model based on Canonical Correlation and Deep Learning for Hearing-Assistive Technologies	Feb 8, 2022	Speech Enhancement	—Unverified	0
Exploring Self-Attention Mechanisms for Speech Separation	Feb 6, 2022	DenoisingSpeech Enhancement	—Unverified	0
Optimization of a Real-Time Wavelet-Based Algorithm for Improving Speech Intelligibility	Feb 5, 2022	Speech EnhancementSpeech-to-Text	—Unverified	0
The RoyalFlush System of Speech Recognition for M2MeT Challenge	Feb 3, 2022	Automatic Speech RecognitionAutomatic Speech Recognition (ASR)	—Unverified	0
Joint Speech Recognition and Audio Captioning	Feb 3, 2022	AudioCapsAudio captioning	—Unverified	0
The impact of removing head movements on audio-visual speech enhancement	Feb 1, 2022	Speech Enhancement	—Unverified	0
HGCN: Harmonic gated compensation network for speech enhancement	Jan 30, 2022	Action DetectionActivity Detection	CodeCode Available	1
A two-step backward compatible fullband speech enhancement system	Jan 26, 2022	Speech EnhancementVocal Bursts Valence Prediction	—Unverified	0
A Bayesian Permutation training deep representation learning method for speech enhancement with variational autoencoder	Jan 24, 2022	Representation LearningSpeech Enhancement	—Unverified	0
End-to-End Neural Speech Coding for Real-Time Communications	Jan 24, 2022	DecoderPacket Loss Concealment	—Unverified	0
How Bad Are Artifacts?: Analyzing the Impact of Speech Enhancement Errors on ASR	Jan 18, 2022	Automatic Speech RecognitionAutomatic Speech Recognition (ASR)	—Unverified	0
Learning to Enhance or Not: Neural Network-Based Switching of Enhanced and Observed Signals for Overlapping Speech Recognition	Jan 11, 2022	Automatic Speech RecognitionAutomatic Speech Recognition (ASR)	—Unverified	0
TFCN: Temporal-Frequential Convolutional Network for Single-Channel Speech Enhancement	Jan 3, 2022	Speech Enhancement	—Unverified	0
Signal-Aware Direction-of-Arrival Estimation Using Attention Mechanisms	Jan 3, 2022	Direction of Arrival EstimationSpeech Enhancement	—Unverified	0
Towards Robust Real-time Audio-Visual Speech Enhancement	Dec 16, 2021	Speech Enhancement	—Unverified	0

Show:10 25 50

← PrevPage 11 of 20Next →

All datasets VoiceBank + DEMAND Deep Noise Suppression (DNS) Challenge CHiME-3 EARS-WHAM EasyCom DNS Challenge VB-DemandEx WHAMR!WSJ0 + DEMAND + RNNoise RealMAN VoiceBank+DEMAND DEMAND

Benchmark Results

#	Model	Metric	Claimed	Verified	Status
1	ROSE-CD(PESQ)	PESQ (wb)	3.99	—	Unverified
2	PESQetarian	PESQ (wb)	3.82	—	Unverified
3	Mamba-SEUNet L (+PCS)	PESQ (wb)	3.73	—	Unverified
4	Schrödinger bridge (PESQ loss)	PESQ (wb)	3.7	—	Unverified
5	SEMamba (+PCS)	PESQ (wb)	3.69	—	Unverified
6	ZipEnhancer (S, \lamba_6 = 0)	PESQ (wb)	3.63	—	Unverified
7	PrimeK-Net	PESQ (wb)	3.61	—	Unverified
8	ZipEnhancer (S, \lamba_6 = 0.2)	PESQ (wb)	3.61	—	Unverified
9	MP-SENet	PESQ (wb)	3.6	—	Unverified
10	PCS_CS_WAVLM	PESQ (wb)	3.54	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	BSRNN-S + MGD	SI-SDR-WB	21.4	—	Unverified
2	DTLN	SI-SDR-WB	16.34	—	Unverified
3	Non-Real-Time MultiScale+	SI-SDR-WB	16.22	—	Unverified
4	ZipEnhancer (M)	PESQ-WB	3.81	—	Unverified
5	TF-Locoformer (M)	PESQ-WB	3.72	—	Unverified
6	ZipEnhancer (S)	PESQ-WB	3.69	—	Unverified
7	MambAttention	PESQ-WB	3.67	—	Unverified
8	MP-SENet	PESQ-WB	3.62	—	Unverified
9	xLSTM-SENet	PESQ-WB	3.59	—	Unverified
10	BSRNN-S + MRSD	PESQ-WB	3.53	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	Inter-Channel Conv-TasNet	SDR	19.67	—	Unverified
2	CA Dense U-Net (Complex)	SDR	18.64	—	Unverified
3	Dense U-Net (Complex)	SDR	18.4	—	Unverified
4	Dense U-Net (Real)	SDR	16.86	—	Unverified
5	U-Net (Real)	SDR	15.97	—	Unverified
6	Noisy/unprocessed	SDR	6.5	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	Schrödinger Bridge (PESQ loss)	PESQ-WB	3.09	—	Unverified
2	SGMSE+	PESQ-WB	2.5	—	Unverified
3	Demucs v4	PESQ-WB	2.37	—	Unverified
4	Schrödinger Bridge	PESQ-WB	2.33	—	Unverified
5	Conv-TasNet	PESQ-WB	2.31	—	Unverified
6	CDiffuSE	PESQ-WB	1.6	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	ReVISE (ch2)	Audio Quality MOS	4.19	—	Unverified
2	ReVISE (bf)	Audio Quality MOS	4.11	—	Unverified
3	Demucs (ch2)	Audio Quality MOS	2.95	—	Unverified
4	Demucs (bf)	Audio Quality MOS	2.39	—	Unverified
5	MaxDI (Baseline)	PESQ	1.17	—	Unverified
6	DAJA (MVDR,HMA,1000) (Overlapped Speech)	SDR	-4.76	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	ZipEnhancer (M)	PESQ-NB	4.08	—	Unverified
2	DCCRN-MC	PESQ-NB	3.21	—	Unverified
3	DCCRN-M	PESQ-NB	3.15	—	Unverified
4	DCCRN	PESQ-NB	3.04	—	Unverified
5	RNN-Modulation	PESQ-WB	2.75	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	MambAttention	ESTOI	0.8	—	Unverified
2	SEMamba	ESTOI	0.8	—	Unverified
3	xLSTM-SENet	ESTOI	0.8	—	Unverified
4	MP-SENet	ESTOI	0.79	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	SepFormer	PESQ	2.84	—	Unverified
2	DTLN	PESQ	2.23	—	Unverified
3	Unprocessed	PESQ	1.83	—	Unverified
4	Non-Real-Time MultiScale+	PESQ	1.52	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	DCUNet-MC	PESQ-NB	3.44	—	Unverified
2	DCCRN-M	PESQ-NB	3.28	—	Unverified
3	DCUNet	PESQ-NB	3.25	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	CleanMel-L-map	DNSMOS	3.82	—	Unverified
2	SpatialNet	DNSMOS BAK	3.43	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	rose_cd(PESQ )	PESQ	3.99	—	Unverified
2	ROSE-CD	PESQ	3.49	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	Wave-U-Net	CBAK	3.24	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	Audio-Visual concat-ref	PESQ	2.7	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	SE-MelGAN	Audio Quality MOS	3.1	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	DeFT-AN	PESQ	3.01	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	Audio-Visual concat-ref	PESQ	3.03	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	SepFormer	PESQ	3.07	—	Unverified