Speech Enhancement

Speech Enhancement is a signal processing task that involves improving the quality of speech signals captured under noisy or degraded conditions. The goal of speech enhancement is to make speech signals clearer, more intelligible, and more pleasant to listen to, which can be used for various applications such as voice recognition, teleconferencing, and hearing aids. A representative Github project with online demo : ClearerVoice-Studio.

( Image credit: A Fully Convolutional Neural Network For Speech Enhancement )

Papers

Recently Added Most Hyped Most Active Needs Verification Most Verified

Showing 501–550 of 982 papers

Title	Date	Tasks	Status
Speech Enhancement with Multi-granularity Vector Quantization	Feb 16, 2023	DenoisingQuantization	—Unverified
Multi-Channel Target Speaker Extraction with Refinement: The WavLab Submission to the Second Clarity Enhancement Challenge	Feb 15, 2023	Speaker SeparationSpeech Enhancement	—Unverified
Speech Enhancement for Virtual Meetings on Cellular Networks	Feb 2, 2023	Deep LearningSpeech Enhancement	CodeCode Available
On Batching Variable Size Inputs for Training End-to-End Speech Enhancement Systems	Jan 25, 2023	GPUSpeech Enhancement	—Unverified
Cellular Network Speech Enhancement: Removing Background and Transmission Noise	Jan 22, 2023	Speech Enhancement	—Unverified
Rethinking complex-valued deep neural networks for monaural speech enhancement	Jan 11, 2023	Open-Ended Question AnsweringSpeech Enhancement	—Unverified
Perceive and predict: self-supervised speech representation based loss functions for speech enhancement	Jan 11, 2023	Speech Enhancement	—Unverified
ReVISE: Self-Supervised Speech Resynthesis with Visual Input for Universal and Generalized Speech Enhancement	Dec 21, 2022	Audio-Visual Speech RecognitionResynthesis	—Unverified
Uncertainty Estimation in Deep Speech Enhancement Using Complex Gaussian Mixture Models	Dec 9, 2022	Speech EnhancementUncertainty Quantification	—Unverified
Selector-Enhancer: Learning Dynamic Selection of Local and Non-local Attention Operation for Speech Enhancement	Dec 7, 2022	DenoisingReinforcement Learning (RL)	—Unverified
Injecting Spatial Information for Monaural Speech Enhancement via Knowledge Distillation	Dec 2, 2022	Knowledge DistillationSpeech Enhancement	—Unverified
Deep neural network techniques for monaural speech enhancement: state of the art analysis	Dec 1, 2022	Art AnalysisImage Generation	—Unverified
Stereo Speech Enhancement Using Custom Mid-Side Signals and Monaural Processing	Nov 25, 2022	Speech Enhancement	—Unverified
Dynamic Acoustic Compensation and Adaptive Focal Training for Personalized Speech Enhancement	Nov 22, 2022	Speech Enhancement	—Unverified
D²Net: A Denoising and Dereverberation Network Based on Two-branch Encoder and Dual-path Transformer	Nov 21, 2022	DenoisingSpeech Enhancement	—Unverified
LA-VocE: Low-SNR Audio-visual Speech Enhancement using Neural Vocoders	Nov 20, 2022	Speech EnhancementSpeech Synthesis	—Unverified
Exploring WavLM on Speech Enhancement	Nov 18, 2022	Self-Supervised LearningSpeech Enhancement	—Unverified
Array Configuration-Agnostic Personalized Speech Enhancement using Long-Short-Term Spatial Coherence	Nov 16, 2022	Speech Enhancement	—Unverified
Leveraging Heteroscedastic Uncertainty in Learning Complex Spectral Mapping for Single-channel Speech Enhancement	Nov 16, 2022	Speech Enhancement	—Unverified
A Two-Stage Deep Representation Learning-Based Speech Enhancement Method Using Variational Autoencoder and Adversarial Training	Nov 16, 2022	Representation LearningSpeech Enhancement	—Unverified
Multi-Label Training for Text-Independent Speaker Identification	Nov 14, 2022	Ensemble LearningSpeaker Identification	—Unverified
The Potential of Neural Speech Synthesis-based Data Augmentation for Personalized Speech Enhancement	Nov 14, 2022	Data AugmentationSpeech Enhancement	—Unverified
Cross-Attention is all you need: Real-Time Streaming Transformers for Personalised Speech Enhancement	Nov 8, 2022	AllSpeech Enhancement	—Unverified
DiffPhase: Generative Diffusion-based STFT Phase Retrieval	Nov 8, 2022	ImputationRetrieval	—Unverified
Egocentric Audio-Visual Noise Suppression	Nov 7, 2022	Action ClassificationEvent Detection	—Unverified
Breaking the trade-off in personalized speech enhancement with cross-task knowledge distillation	Nov 5, 2022	Knowledge DistillationSpeech Enhancement	—Unverified
Real-Time Joint Personalized Speech Enhancement and Acoustic Echo Cancellation	Nov 4, 2022	Acoustic echo cancellationMulti-Task Learning	—Unverified
Cold Diffusion for Speech Enhancement	Nov 4, 2022	Speech Enhancement	—Unverified
Self-Supervised Learning for Speech Enhancement through Synthesis	Nov 4, 2022	DenoisingSelf-Supervised Learning	CodeCode Available
Speech enhancement using ego-noise references with a microphone array embedded in an unmanned aerial vehicle	Nov 4, 2022	Speech Enhancement	—Unverified
Analysing Diffusion-based Generative Approaches versus Discriminative Approaches for Speech Restoration	Nov 4, 2022	Bandwidth ExtensionSpeech Denoising	—Unverified
Dynamic Kernels and Channel Attention for Low Resource Speaker Verification	Nov 3, 2022	Speaker VerificationSpeech Enhancement	—Unverified
Iterative autoregression: a novel trick to improve your low-latency speech enhancement model	Nov 3, 2022	Speech Enhancement	—Unverified
Audio-visual speech enhancement with a deep Kalman filter generative model	Nov 2, 2022	Speech Enhancement	—Unverified
Analysis of Noisy-target Training for DNN-based speech enhancement	Nov 2, 2022	Speech Enhancement	—Unverified
A weighted-variance variational autoencoder model for speech enhancement	Nov 2, 2022	Speech Enhancement	—Unverified
Fast and efficient speech enhancement with variational autoencoders	Nov 2, 2022	Computational EfficiencySpeech Enhancement	—Unverified
Exploiting the compressed spectral loss for the learning of the DEMUCS speech enhancement network	Nov 1, 2022	Speech Enhancement	—Unverified
A Preliminary Study of the Application of Discrete Wavelet Transform Features in Conv-TasNet Speech Enhancement Model	Nov 1, 2022	Speech Enhancement	—Unverified
SCA: Streaming Cross-attention Alignment for Echo Cancellation	Nov 1, 2022	Speech EnhancementSpeech Separation	—Unverified
Audio-Visual Speech Enhancement and Separation by Utilizing Multi-Modal Self-Supervised Embeddings	Oct 31, 2022	Automatic Speech RecognitionAutomatic Speech Recognition (ASR)	—Unverified
A Training and Inference Strategy Using Noisy and Enhanced Speech as Target for Speech Enhancement without Clean Speech	Oct 27, 2022	Speech Enhancement	CodeCode Available
SCP-GAN: Self-Correcting Discriminator Optimization for Training Consistency Preserving Metric GAN on Speech Enhancement Tasks	Oct 26, 2022	Speech Enhancement	—Unverified
Parallel Gated Neural Network With Attention Mechanism For Speech Enhancement	Oct 26, 2022	Speech Enhancement	—Unverified
A Novel Frame Structure for Cloud-Based Audio-Visual Speech Enhancement in Multimodal Hearing-aids	Oct 24, 2022	Lip ReadingSpeech Enhancement	—Unverified
TridentSE: Guiding Speech Enhancement with 32 Global Tokens	Oct 24, 2022	Speech Enhancement	—Unverified
Time-Domain Speech Enhancement for Robust Automatic Speech Recognition	Oct 24, 2022	Automatic Speech RecognitionAutomatic Speech Recognition (ASR)	—Unverified
Improved Normalizing Flow-Based Speech Enhancement using an All-pole Gammatone Filterbank for Conditional Input Representation	Oct 21, 2022	AllSpeech Enhancement	—Unverified
spatial-dccrn: dccrn equipped with frame-level angle feature and hybrid filtering for multi-channel speech enhancement	Oct 17, 2022	DenoisingSpeech Enhancement	—Unverified
Accelerating RNN-based Speech Enhancement on a Multi-Core MCU with Mixed FP16-INT8 Post-Training Quantization	Oct 14, 2022	QuantizationSpeech Enhancement	—Unverified

Show:10 25 50

← PrevPage 11 of 20Next →

All datasets VoiceBank + DEMAND Deep Noise Suppression (DNS) Challenge CHiME-3 EARS-WHAM EasyCom DNS Challenge VB-DemandEx WHAMR!WSJ0 + DEMAND + RNNoise RealMAN VoiceBank+DEMAND DEMAND

Benchmark Results

#	Model	Metric	Claimed	Verified	Status
1	ROSE-CD(PESQ)	PESQ (wb)	3.99	—	Unverified
2	PESQetarian	PESQ (wb)	3.82	—	Unverified
3	Mamba-SEUNet L (+PCS)	PESQ (wb)	3.73	—	Unverified
4	Schrödinger bridge (PESQ loss)	PESQ (wb)	3.7	—	Unverified
5	SEMamba (+PCS)	PESQ (wb)	3.69	—	Unverified
6	ZipEnhancer (S, \lamba_6 = 0)	PESQ (wb)	3.63	—	Unverified
7	PrimeK-Net	PESQ (wb)	3.61	—	Unverified
8	ZipEnhancer (S, \lamba_6 = 0.2)	PESQ (wb)	3.61	—	Unverified
9	MP-SENet	PESQ (wb)	3.6	—	Unverified
10	PCS_CS_WAVLM	PESQ (wb)	3.54	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	BSRNN-S + MGD	SI-SDR-WB	21.4	—	Unverified
2	DTLN	SI-SDR-WB	16.34	—	Unverified
3	Non-Real-Time MultiScale+	SI-SDR-WB	16.22	—	Unverified
4	ZipEnhancer (M)	PESQ-WB	3.81	—	Unverified
5	TF-Locoformer (M)	PESQ-WB	3.72	—	Unverified
6	ZipEnhancer (S)	PESQ-WB	3.69	—	Unverified
7	MambAttention	PESQ-WB	3.67	—	Unverified
8	MP-SENet	PESQ-WB	3.62	—	Unverified
9	xLSTM-SENet	PESQ-WB	3.59	—	Unverified
10	BSRNN-S + MRSD	PESQ-WB	3.53	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	Inter-Channel Conv-TasNet	SDR	19.67	—	Unverified
2	CA Dense U-Net (Complex)	SDR	18.64	—	Unverified
3	Dense U-Net (Complex)	SDR	18.4	—	Unverified
4	Dense U-Net (Real)	SDR	16.86	—	Unverified
5	U-Net (Real)	SDR	15.97	—	Unverified
6	Noisy/unprocessed	SDR	6.5	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	Schrödinger Bridge (PESQ loss)	PESQ-WB	3.09	—	Unverified
2	SGMSE+	PESQ-WB	2.5	—	Unverified
3	Demucs v4	PESQ-WB	2.37	—	Unverified
4	Schrödinger Bridge	PESQ-WB	2.33	—	Unverified
5	Conv-TasNet	PESQ-WB	2.31	—	Unverified
6	CDiffuSE	PESQ-WB	1.6	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	ReVISE (ch2)	Audio Quality MOS	4.19	—	Unverified
2	ReVISE (bf)	Audio Quality MOS	4.11	—	Unverified
3	Demucs (ch2)	Audio Quality MOS	2.95	—	Unverified
4	Demucs (bf)	Audio Quality MOS	2.39	—	Unverified
5	MaxDI (Baseline)	PESQ	1.17	—	Unverified
6	DAJA (MVDR,HMA,1000) (Overlapped Speech)	SDR	-4.76	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	ZipEnhancer (M)	PESQ-NB	4.08	—	Unverified
2	DCCRN-MC	PESQ-NB	3.21	—	Unverified
3	DCCRN-M	PESQ-NB	3.15	—	Unverified
4	DCCRN	PESQ-NB	3.04	—	Unverified
5	RNN-Modulation	PESQ-WB	2.75	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	MambAttention	ESTOI	0.8	—	Unverified
2	SEMamba	ESTOI	0.8	—	Unverified
3	xLSTM-SENet	ESTOI	0.8	—	Unverified
4	MP-SENet	ESTOI	0.79	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	SepFormer	PESQ	2.84	—	Unverified
2	DTLN	PESQ	2.23	—	Unverified
3	Unprocessed	PESQ	1.83	—	Unverified
4	Non-Real-Time MultiScale+	PESQ	1.52	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	DCUNet-MC	PESQ-NB	3.44	—	Unverified
2	DCCRN-M	PESQ-NB	3.28	—	Unverified
3	DCUNet	PESQ-NB	3.25	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	CleanMel-L-map	DNSMOS	3.82	—	Unverified
2	SpatialNet	DNSMOS BAK	3.43	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	rose_cd(PESQ )	PESQ	3.99	—	Unverified
2	ROSE-CD	PESQ	3.49	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	Wave-U-Net	CBAK	3.24	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	Audio-Visual concat-ref	PESQ	2.7	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	SE-MelGAN	Audio Quality MOS	3.1	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	DeFT-AN	PESQ	3.01	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	Audio-Visual concat-ref	PESQ	3.03	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	SepFormer	PESQ	3.07	—	Unverified