Speech Enhancement

Speech Enhancement is a signal processing task that involves improving the quality of speech signals captured under noisy or degraded conditions. The goal of speech enhancement is to make speech signals clearer, more intelligible, and more pleasant to listen to, which can be used for various applications such as voice recognition, teleconferencing, and hearing aids. A representative Github project with online demo : ClearerVoice-Studio.

( Image credit: A Fully Convolutional Neural Network For Speech Enhancement )

Papers

Recently Added Most Hyped Most Active Needs Verification Most Verified

Showing 451–475 of 982 papers

Title	Date	Tasks	Status	Hype
ESPnet-SE++: Speech Enhancement for Robust Speech Recognition, Translation, and Understanding	Jul 19, 2022	Automatic Speech RecognitionAutomatic Speech Recognition (ASR)	—Unverified	0
Improving spatial cues for hearables using a parameterized binaural CDR estimator	Jul 17, 2022	Speech Enhancement	—Unverified	0
Multi-channel target speech enhancement based on ERB-scaled spatial coherence features	Jul 17, 2022	Speech Enhancement	—Unverified	0
Direction-Aware Joint Adaptation of Neural Speech Enhancement and Recognition in Real Multiparty Conversational Environments	Jul 15, 2022	Automatic Speech RecognitionAutomatic Speech Recognition (ASR)	—Unverified	0
Direction-Aware Adaptive Online Neural Speech Enhancement with an Augmented Reality Headset in Real Noisy Conversational Environments	Jul 15, 2022	blind source separationSpeech Enhancement	CodeCode Available	2
Improving Speech Enhancement through Fine-Grained Speech Characteristics	Jul 1, 2022	Deep LearningSpeech Enhancement	CodeCode Available	1
Improving Visual Speech Enhancement Network by Learning Audio-visual Affinity with Multi-head Attention	Jun 30, 2022	DecoderSpeech Enhancement	—Unverified	0
GLD-Net: Improving Monaural Speech Enhancement by Learning Global and Local Dependency Features with GLD Block	Jun 30, 2022	DecoderSpeech Enhancement	—Unverified	0
A light-weight full-band speech enhancement model	Jun 29, 2022	Speech Enhancement	CodeCode Available	1
Challenges and Opportunities in Multi-device Speech Processing	Jun 27, 2022	Automatic Speech RecognitionAutomatic Speech Recognition (ASR)	—Unverified	0
Insights Into Deep Non-linear Filters for Improved Multi-channel Speech Enhancement	Jun 27, 2022	Speech Enhancement	CodeCode Available	1
SAQAM: Spatial Audio Quality Assessment Metric	Jun 24, 2022	Audio Quality AssessmentMulti-Task Learning	—Unverified	0
Efficient Transformer-based Speech Enhancement Using Long Frames and STFT Magnitudes	Jun 23, 2022	Speech EnhancementSpeech Separation	—Unverified	0
On the Role of Spatial, Spectral, and Temporal Processing for DNN-based Non-linear Multi-channel Speech Enhancement	Jun 22, 2022	Speech EnhancementSpeech Extraction	CodeCode Available	1
A Systematic Comparison of Phonetic Aware Techniques for Speech Enhancement	Jun 22, 2022	Automatic Speech RecognitionAutomatic Speech Recognition (ASR)	CodeCode Available	1
Multi-channel end-to-end neural network for speech enhancement, source localization, and voice activity detection	Jun 20, 2022	Action DetectionActivity Detection	—Unverified	0
0/1 Deep Neural Networks via Block Coordinate Descent	Jun 19, 2022	10-shot image generation	—Unverified	0
NASTAR: Noise Adaptive Speech Enhancement with Target-Conditional Resampling	Jun 18, 2022	RetrievalSpeech Enhancement	—Unverified	0
Adversarial Privacy Protection on Speech Enhancement	Jun 16, 2022	Speech Enhancement	CodeCode Available	0
To Dereverb Or Not to Dereverb? Perceptual Studies On Real-Time Dereverberation Targets	Jun 16, 2022	DenoisingSpeech Enhancement	—Unverified	0
EPG2S: Speech Generation and Speech Enhancement based on Electropalatography and Audio Signals using Multimodal Learning	Jun 16, 2022	Speech Enhancement	—Unverified	0
Universal Speech Enhancement with Score-based Diffusion	Jun 7, 2022	Speech Enhancement	CodeCode Available	1
Canonical Cortical Graph Neural Networks and its Application for Speech Enhancement in Audio-Visual Hearing Aids	Jun 6, 2022	BIG-bench Machine LearningSpeech Enhancement	—Unverified	0
Far-Field Speaker Recognition Benchmark Derived From The DiPCo Corpus	Jun 1, 2022	DenoisingSpeaker Recognition	—Unverified	0
Joint Training of Speech Enhancement and Self-supervised Model for Noise-robust ASR	May 26, 2022	Automatic Speech RecognitionAutomatic Speech Recognition (ASR)	—Unverified	0

Show:10 25 50

← PrevPage 19 of 40Next →

All datasets VoiceBank + DEMAND Deep Noise Suppression (DNS) Challenge CHiME-3 EARS-WHAM EasyCom DNS Challenge VB-DemandEx WHAMR!WSJ0 + DEMAND + RNNoise RealMAN VoiceBank+DEMAND DEMAND

Benchmark Results

#	Model	Metric	Claimed	Verified	Status
1	ROSE-CD(PESQ)	PESQ (wb)	3.99	—	Unverified
2	PESQetarian	PESQ (wb)	3.82	—	Unverified
3	Mamba-SEUNet L (+PCS)	PESQ (wb)	3.73	—	Unverified
4	Schrödinger bridge (PESQ loss)	PESQ (wb)	3.7	—	Unverified
5	SEMamba (+PCS)	PESQ (wb)	3.69	—	Unverified
6	ZipEnhancer (S, \lamba_6 = 0)	PESQ (wb)	3.63	—	Unverified
7	PrimeK-Net	PESQ (wb)	3.61	—	Unverified
8	ZipEnhancer (S, \lamba_6 = 0.2)	PESQ (wb)	3.61	—	Unverified
9	MP-SENet	PESQ (wb)	3.6	—	Unverified
10	PCS_CS_WAVLM	PESQ (wb)	3.54	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	BSRNN-S + MGD	SI-SDR-WB	21.4	—	Unverified
2	DTLN	SI-SDR-WB	16.34	—	Unverified
3	Non-Real-Time MultiScale+	SI-SDR-WB	16.22	—	Unverified
4	ZipEnhancer (M)	PESQ-WB	3.81	—	Unverified
5	TF-Locoformer (M)	PESQ-WB	3.72	—	Unverified
6	ZipEnhancer (S)	PESQ-WB	3.69	—	Unverified
7	MambAttention	PESQ-WB	3.67	—	Unverified
8	MP-SENet	PESQ-WB	3.62	—	Unverified
9	xLSTM-SENet	PESQ-WB	3.59	—	Unverified
10	BSRNN-S + MRSD	PESQ-WB	3.53	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	Inter-Channel Conv-TasNet	SDR	19.67	—	Unverified
2	CA Dense U-Net (Complex)	SDR	18.64	—	Unverified
3	Dense U-Net (Complex)	SDR	18.4	—	Unverified
4	Dense U-Net (Real)	SDR	16.86	—	Unverified
5	U-Net (Real)	SDR	15.97	—	Unverified
6	Noisy/unprocessed	SDR	6.5	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	Schrödinger Bridge (PESQ loss)	PESQ-WB	3.09	—	Unverified
2	SGMSE+	PESQ-WB	2.5	—	Unverified
3	Demucs v4	PESQ-WB	2.37	—	Unverified
4	Schrödinger Bridge	PESQ-WB	2.33	—	Unverified
5	Conv-TasNet	PESQ-WB	2.31	—	Unverified
6	CDiffuSE	PESQ-WB	1.6	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	ReVISE (ch2)	Audio Quality MOS	4.19	—	Unverified
2	ReVISE (bf)	Audio Quality MOS	4.11	—	Unverified
3	Demucs (ch2)	Audio Quality MOS	2.95	—	Unverified
4	Demucs (bf)	Audio Quality MOS	2.39	—	Unverified
5	MaxDI (Baseline)	PESQ	1.17	—	Unverified
6	DAJA (MVDR,HMA,1000) (Overlapped Speech)	SDR	-4.76	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	ZipEnhancer (M)	PESQ-NB	4.08	—	Unverified
2	DCCRN-MC	PESQ-NB	3.21	—	Unverified
3	DCCRN-M	PESQ-NB	3.15	—	Unverified
4	DCCRN	PESQ-NB	3.04	—	Unverified
5	RNN-Modulation	PESQ-WB	2.75	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	MambAttention	ESTOI	0.8	—	Unverified
2	SEMamba	ESTOI	0.8	—	Unverified
3	xLSTM-SENet	ESTOI	0.8	—	Unverified
4	MP-SENet	ESTOI	0.79	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	SepFormer	PESQ	2.84	—	Unverified
2	DTLN	PESQ	2.23	—	Unverified
3	Unprocessed	PESQ	1.83	—	Unverified
4	Non-Real-Time MultiScale+	PESQ	1.52	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	DCUNet-MC	PESQ-NB	3.44	—	Unverified
2	DCCRN-M	PESQ-NB	3.28	—	Unverified
3	DCUNet	PESQ-NB	3.25	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	CleanMel-L-map	DNSMOS	3.82	—	Unverified
2	SpatialNet	DNSMOS BAK	3.43	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	rose_cd(PESQ )	PESQ	3.99	—	Unverified
2	ROSE-CD	PESQ	3.49	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	Wave-U-Net	CBAK	3.24	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	Audio-Visual concat-ref	PESQ	2.7	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	SE-MelGAN	Audio Quality MOS	3.1	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	DeFT-AN	PESQ	3.01	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	Audio-Visual concat-ref	PESQ	3.03	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	SepFormer	PESQ	3.07	—	Unverified