Speech Enhancement

Speech Enhancement is a signal processing task that involves improving the quality of speech signals captured under noisy or degraded conditions. The goal of speech enhancement is to make speech signals clearer, more intelligible, and more pleasant to listen to, which can be used for various applications such as voice recognition, teleconferencing, and hearing aids. A representative Github project with online demo : ClearerVoice-Studio.

( Image credit: A Fully Convolutional Neural Network For Speech Enhancement )

Papers

Recently Added Most Hyped Most Active Needs Verification Most Verified

Showing 651–700 of 982 papers

Title	Date	Tasks	Status	Hype
The NTNU Taiwanese ASR System for Formosa Speech Recognition Challenge 2020	Apr 9, 2021	Data AugmentationSpeech Enhancement	—Unverified	0
Speech Denoising Without Clean Training Data: A Noise2Noise Approach	Apr 8, 2021	Audio DenoisingDenoising	CodeCode Available	1
Phoneme-based Distribution Regularization for Speech Enhancement	Apr 8, 2021	Speech Enhancement	—Unverified	0
MetricGAN+: An Improved Version of MetricGAN for Speech Enhancement	Apr 8, 2021	Speech Enhancement	CodeCode Available	1
Real-time Streaming Wave-U-Net with Temporal Convolutions for Multichannel Speech Enhancement	Apr 5, 2021	DecoderSpeech Enhancement	—Unverified	0
Personalized Speech Enhancement through Self-Supervised Data Augmentation and Purification	Apr 5, 2021	Data AugmentationDenoising	—Unverified	0
Efficient Personalized Speech Enhancement through Self-Supervised Learning	Apr 5, 2021	Few-Shot LearningModel Compression	—Unverified	0
Adversarial Joint Training with Self-Attention Mechanism for Robust End-to-End Speech Recognition	Apr 3, 2021	Automatic Speech RecognitionAutomatic Speech Recognition (ASR)	—Unverified	0
INTERSPEECH 2021 ConferencingSpeech Challenge: Towards Far-field Multi-Channel Speech Enhancement for Video Conferencing	Apr 2, 2021	Speech EnhancementTask 2	CodeCode Available	1
Deep Noise Suppression With Non-Intrusive PESQNet Supervision Enabling the Use of Real Training Data	Mar 31, 2021	DenoisingSpeech Enhancement	—Unverified	0
Time-domain Speech Enhancement with Generative Adversarial Learning	Mar 30, 2021	Generative Adversarial NetworkSpeech Enhancement	CodeCode Available	0
TSTNN: Two-stage Transformer based Neural Network for Speech Enhancement in the Time Domain	Mar 18, 2021	DecoderDenoising	—Unverified	0
Towards Robust Speaker Verification with Target Speaker Enhancement	Mar 16, 2021	Speaker VerificationSpeech Enhancement	—Unverified	0
Transformers with Competitive Ensembles of Independent Mechanisms	Feb 27, 2021	Speech Enhancement	—Unverified	0
Speech Enhancement Using Multi-Stage Self-Attentive Temporal Convolutional Networks	Feb 24, 2021	Automatic Speech RecognitionAutomatic Speech Recognition (ASR)	—Unverified	0
A Robust Maximum Likelihood Distortionless Response Beamformer based on a Complex Generalized Gaussian Distribution	Feb 19, 2021	Speech Enhancement	—Unverified	0
Variational Autoencoder for Speech Enhancement with a Noise-Aware Encoder	Feb 17, 2021	Speech Enhancement	—Unverified	0
A Modulation-Domain Loss for Neural-Network-based Real-time Speech Enhancement	Feb 15, 2021	Speaker IdentificationSpeech Denoising	CodeCode Available	1
Guided Variational Autoencoder for Speech Enhancement With a Supervised Classifier	Feb 12, 2021	Speech Enhancement	—Unverified	0
Speech enhancement with mixture-of-deep-experts with clean clustering pre-training	Feb 11, 2021	ClusteringSpeech Enhancement	—Unverified	0
An Investigation of End-to-End Models for Robust Speech Recognition	Feb 11, 2021	Automatic Speech RecognitionAutomatic Speech Recognition (ASR)	CodeCode Available	1
Real-time Monaural Speech Enhancement With Short-time Discrete Cosine Transform	Feb 9, 2021	Speech Enhancement	—Unverified	0
CDPAM: Contrastive learning for perceptual audio similarity	Feb 9, 2021	Contrastive LearningSpeech Enhancement	CodeCode Available	1
Switching Variational Auto-Encoders for Noise-Agnostic Audio-visual Speech Enhancement	Feb 8, 2021	Speech Enhancement	—Unverified	0
Real-time Denoising and Dereverberation with Tiny Recurrent U-Net	Feb 5, 2021	DenoisingSpeech Enhancement	CodeCode Available	1
VSEGAN: Visual Speech Enhancement Generative Adversarial Network	Feb 4, 2021	Generative Adversarial NetworkSpeech Enhancement	—Unverified	0
Monaural Speech Enhancement with Complex Convolutional Block Attention Module and Joint Time Frequency Losses	Feb 3, 2021	DecoderSpeech Denoising	CodeCode Available	2
High Fidelity Speech Regeneration with Application to Speech Enhancement	Jan 31, 2021	DenoisingSpeaker Separation	—Unverified	0
Acoustic Structure Inverse Design and Optimization Using Deep Learning	Jan 29, 2021	Deep LearningSpeech Enhancement	—Unverified	0
Speech Enhancement for Wake-Up-Word detection in Voice Assistants	Jan 29, 2021	Data AugmentationDenoising	—Unverified	0
Towards efficient models for real-time deep noise suppression	Jan 22, 2021	Speech Enhancement	—Unverified	0
Noisy-target Training: A Training Strategy for DNN-based Speech Enhancement without Clean Speech	Jan 21, 2021	Speech Enhancementspeech-recognition	—Unverified	0
AMFFCN: Attentional Multi-layer Feature Fusion Convolution Network for Audio-visual Speech Enhancement	Jan 15, 2021	DecoderSpeech Enhancement	—Unverified	0
Multi-layer Feature Fusion Convolution Network for Audio-visual Speech Enhancement	Jan 15, 2021	Speech Enhancement	—Unverified	0
Neural Network-based Virtual Microphone Estimator	Jan 12, 2021	Speech Enhancement	—Unverified	0
Attention-based multi-task learning for speech-enhancement and speaker-identification in multi-speaker dialogue scenario	Jan 7, 2021	Multi-Task LearningSpeaker Identification	CodeCode Available	0
Visual Speech Enhancement Without A Real Visual Stream	Dec 20, 2020	DenoisingSpeech Denoising	CodeCode Available	1
DCCRGAN: Deep Complex Convolution Recurrent Generator Adversarial Network for Speech Enhancement	Dec 19, 2020	Generative Adversarial NetworkSpeech Enhancement	—Unverified	0
Interactive Speech and Noise Modeling for Speech Enhancement	Dec 17, 2020	DiversitySpeaker Separation	—Unverified	0
Speech Enhancement with Zero-Shot Model Selection	Dec 17, 2020	Ensemble Learningmodel	CodeCode Available	0
Group Communication with Context Codec for Lightweight Source Separation	Dec 14, 2020	DecoderSpeech Enhancement	CodeCode Available	1
Towards speech enhancement using a variational U-Net architecture	Dec 7, 2020	DenoisingSpectral Reconstruction	—Unverified	0
Speaker Recognition Based on Deep Learning: An Overview	Dec 2, 2020	Deep LearningDomain Adaptation	—Unverified	0
Combining Spatial Clustering with LSTM Speech Models for Multichannel Speech Enhancement	Dec 2, 2020	ClusteringSpeech Enhancement	—Unverified	0
Enhancement of Spatial Clustering-Based Time-Frequency Masks using LSTM Neural Networks	Dec 2, 2020	ClusteringSpeech Enhancement	—Unverified	0
Deep Ad-hoc Beamforming Based on Speaker Extraction for Target-Dependent Speech Separation	Dec 1, 2020	channel selectionDeep Learning	—Unverified	0
Speech Denoising with Auditory Models	Nov 21, 2020	DenoisingSpeech Denoising	CodeCode Available	1
Deep Multi-Frame MVDR Filtering for Single-Microphone Speech Enhancement	Nov 20, 2020	Speech Enhancement	CodeCode Available	0
Ultra-Lightweight Speech Separation via Group Communication	Nov 18, 2020	QuantizationSpeech Enhancement	—Unverified	0
Multi-task single channel speech enhancement using speech presence probability as a secondary task training target	Nov 15, 2020	Multi-Task LearningSpeech Enhancement	—Unverified	0

Show:10 25 50

← PrevPage 14 of 20Next →

All datasets VoiceBank + DEMAND Deep Noise Suppression (DNS) Challenge CHiME-3 EARS-WHAM EasyCom DNS Challenge VB-DemandEx WHAMR!WSJ0 + DEMAND + RNNoise RealMAN VoiceBank+DEMAND DEMAND

Benchmark Results

#	Model	Metric	Claimed	Verified	Status
1	ROSE-CD(PESQ)	PESQ (wb)	3.99	—	Unverified
2	PESQetarian	PESQ (wb)	3.82	—	Unverified
3	Mamba-SEUNet L (+PCS)	PESQ (wb)	3.73	—	Unverified
4	Schrödinger bridge (PESQ loss)	PESQ (wb)	3.7	—	Unverified
5	SEMamba (+PCS)	PESQ (wb)	3.69	—	Unverified
6	ZipEnhancer (S, \lamba_6 = 0)	PESQ (wb)	3.63	—	Unverified
7	PrimeK-Net	PESQ (wb)	3.61	—	Unverified
8	ZipEnhancer (S, \lamba_6 = 0.2)	PESQ (wb)	3.61	—	Unverified
9	MP-SENet	PESQ (wb)	3.6	—	Unverified
10	PCS_CS_WAVLM	PESQ (wb)	3.54	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	BSRNN-S + MGD	SI-SDR-WB	21.4	—	Unverified
2	DTLN	SI-SDR-WB	16.34	—	Unverified
3	Non-Real-Time MultiScale+	SI-SDR-WB	16.22	—	Unverified
4	ZipEnhancer (M)	PESQ-WB	3.81	—	Unverified
5	TF-Locoformer (M)	PESQ-WB	3.72	—	Unverified
6	ZipEnhancer (S)	PESQ-WB	3.69	—	Unverified
7	MambAttention	PESQ-WB	3.67	—	Unverified
8	MP-SENet	PESQ-WB	3.62	—	Unverified
9	xLSTM-SENet	PESQ-WB	3.59	—	Unverified
10	BSRNN-S + MRSD	PESQ-WB	3.53	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	Inter-Channel Conv-TasNet	SDR	19.67	—	Unverified
2	CA Dense U-Net (Complex)	SDR	18.64	—	Unverified
3	Dense U-Net (Complex)	SDR	18.4	—	Unverified
4	Dense U-Net (Real)	SDR	16.86	—	Unverified
5	U-Net (Real)	SDR	15.97	—	Unverified
6	Noisy/unprocessed	SDR	6.5	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	Schrödinger Bridge (PESQ loss)	PESQ-WB	3.09	—	Unverified
2	SGMSE+	PESQ-WB	2.5	—	Unverified
3	Demucs v4	PESQ-WB	2.37	—	Unverified
4	Schrödinger Bridge	PESQ-WB	2.33	—	Unverified
5	Conv-TasNet	PESQ-WB	2.31	—	Unverified
6	CDiffuSE	PESQ-WB	1.6	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	ReVISE (ch2)	Audio Quality MOS	4.19	—	Unverified
2	ReVISE (bf)	Audio Quality MOS	4.11	—	Unverified
3	Demucs (ch2)	Audio Quality MOS	2.95	—	Unverified
4	Demucs (bf)	Audio Quality MOS	2.39	—	Unverified
5	MaxDI (Baseline)	PESQ	1.17	—	Unverified
6	DAJA (MVDR,HMA,1000) (Overlapped Speech)	SDR	-4.76	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	ZipEnhancer (M)	PESQ-NB	4.08	—	Unverified
2	DCCRN-MC	PESQ-NB	3.21	—	Unverified
3	DCCRN-M	PESQ-NB	3.15	—	Unverified
4	DCCRN	PESQ-NB	3.04	—	Unverified
5	RNN-Modulation	PESQ-WB	2.75	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	MambAttention	ESTOI	0.8	—	Unverified
2	SEMamba	ESTOI	0.8	—	Unverified
3	xLSTM-SENet	ESTOI	0.8	—	Unverified
4	MP-SENet	ESTOI	0.79	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	SepFormer	PESQ	2.84	—	Unverified
2	DTLN	PESQ	2.23	—	Unverified
3	Unprocessed	PESQ	1.83	—	Unverified
4	Non-Real-Time MultiScale+	PESQ	1.52	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	DCUNet-MC	PESQ-NB	3.44	—	Unverified
2	DCCRN-M	PESQ-NB	3.28	—	Unverified
3	DCUNet	PESQ-NB	3.25	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	CleanMel-L-map	DNSMOS	3.82	—	Unverified
2	SpatialNet	DNSMOS BAK	3.43	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	rose_cd(PESQ )	PESQ	3.99	—	Unverified
2	ROSE-CD	PESQ	3.49	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	Wave-U-Net	CBAK	3.24	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	Audio-Visual concat-ref	PESQ	2.7	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	SE-MelGAN	Audio Quality MOS	3.1	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	DeFT-AN	PESQ	3.01	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	Audio-Visual concat-ref	PESQ	3.03	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	SepFormer	PESQ	3.07	—	Unverified