Speech Enhancement

Speech Enhancement is a signal processing task that involves improving the quality of speech signals captured under noisy or degraded conditions. The goal of speech enhancement is to make speech signals clearer, more intelligible, and more pleasant to listen to, which can be used for various applications such as voice recognition, teleconferencing, and hearing aids. A representative Github project with online demo : ClearerVoice-Studio.

( Image credit: A Fully Convolutional Neural Network For Speech Enhancement )

Papers

Recently Added Most Hyped Most Active Needs Verification Most Verified

Showing 551–600 of 982 papers

Title	Date	Tasks	Status
LeVoice ASR Systems for the ISCSLP 2022 Intelligent Cockpit Speech Recognition Challenge	Oct 14, 2022	Automatic Speech RecognitionAutomatic Speech Recognition (ASR)	—Unverified
Binaural Speech Enhancement Using STOI-Optimal Masks	Sep 30, 2022	Speech Enhancement	—Unverified
Speech Enhancement Using Self-Supervised Pre-Trained Model and Vector Quantization	Sep 28, 2022	DecoderDenoising	—Unverified
Speech Enhancement with Perceptually-motivated Optimization and Dual Transformations	Sep 24, 2022	Speech Enhancement	—Unverified
GIST-AiTeR System for the Diarization Task of the 2022 VoxCeleb Speaker Recognition Challenge	Sep 21, 2022	Action DetectionActivity Detection	—Unverified
A Universally-Deployable ASR Frontend for Joint Acoustic Echo Cancellation, Speech Enhancement, and Voice Separation	Sep 14, 2022	Acoustic echo cancellationAutomatic Speech Recognition	—Unverified
Multimodal Speech Enhancement Using Burst Propagation	Sep 7, 2022	ManagementSpeech Enhancement	—Unverified
Multi-View Attention Transfer for Efficient Speech Enhancement	Aug 22, 2022	Knowledge DistillationSpeech Enhancement	—Unverified
Speech Enhancement and Dereverberation with Diffusion-based Generative Models	Aug 11, 2022	Speech DereverberationSpeech Enhancement	—Unverified
DNN-Free Low-Latency Adaptive Speech Enhancement Based on Frame-Online Beamforming Powered by Block-Online FastMNMF	Jul 22, 2022	blind source separationSpeech Enhancement	—Unverified
ESPnet-SE++: Speech Enhancement for Robust Speech Recognition, Translation, and Understanding	Jul 19, 2022	Automatic Speech RecognitionAutomatic Speech Recognition (ASR)	—Unverified
Multi-channel target speech enhancement based on ERB-scaled spatial coherence features	Jul 17, 2022	Speech Enhancement	—Unverified
Improving spatial cues for hearables using a parameterized binaural CDR estimator	Jul 17, 2022	Speech Enhancement	—Unverified
Direction-Aware Joint Adaptation of Neural Speech Enhancement and Recognition in Real Multiparty Conversational Environments	Jul 15, 2022	Automatic Speech RecognitionAutomatic Speech Recognition (ASR)	—Unverified
Improving Visual Speech Enhancement Network by Learning Audio-visual Affinity with Multi-head Attention	Jun 30, 2022	DecoderSpeech Enhancement	—Unverified
GLD-Net: Improving Monaural Speech Enhancement by Learning Global and Local Dependency Features with GLD Block	Jun 30, 2022	DecoderSpeech Enhancement	—Unverified
Challenges and Opportunities in Multi-device Speech Processing	Jun 27, 2022	Automatic Speech RecognitionAutomatic Speech Recognition (ASR)	—Unverified
SAQAM: Spatial Audio Quality Assessment Metric	Jun 24, 2022	Audio Quality AssessmentMulti-Task Learning	—Unverified
Efficient Transformer-based Speech Enhancement Using Long Frames and STFT Magnitudes	Jun 23, 2022	Speech EnhancementSpeech Separation	—Unverified
Multi-channel end-to-end neural network for speech enhancement, source localization, and voice activity detection	Jun 20, 2022	Action DetectionActivity Detection	—Unverified
0/1 Deep Neural Networks via Block Coordinate Descent	Jun 19, 2022	10-shot image generation	—Unverified
NASTAR: Noise Adaptive Speech Enhancement with Target-Conditional Resampling	Jun 18, 2022	RetrievalSpeech Enhancement	—Unverified
EPG2S: Speech Generation and Speech Enhancement based on Electropalatography and Audio Signals using Multimodal Learning	Jun 16, 2022	Speech Enhancement	—Unverified
Adversarial Privacy Protection on Speech Enhancement	Jun 16, 2022	Speech Enhancement	CodeCode Available
To Dereverb Or Not to Dereverb? Perceptual Studies On Real-Time Dereverberation Targets	Jun 16, 2022	DenoisingSpeech Enhancement	—Unverified
Canonical Cortical Graph Neural Networks and its Application for Speech Enhancement in Audio-Visual Hearing Aids	Jun 6, 2022	BIG-bench Machine LearningSpeech Enhancement	—Unverified
Far-Field Speaker Recognition Benchmark Derived From The DiPCo Corpus	Jun 1, 2022	DenoisingSpeaker Recognition	—Unverified
Joint Training of Speech Enhancement and Self-supervised Model for Noise-robust ASR	May 26, 2022	Automatic Speech RecognitionAutomatic Speech Recognition (ASR)	—Unverified
NeuralEcho: A Self-Attentive Recurrent Neural Network For Unified Acoustic Echo Suppression And Speech Enhancement	May 20, 2022	Acoustic echo cancellationSpeech Enhancement	—Unverified
Dictionary-Based Fusion of Contact and Acoustic Microphones for Wind Noise Reduction	May 18, 2022	Speech Enhancement	—Unverified
Streaming Noise Context Aware Enhancement For Automatic Speech Recognition in Multi-Talker Environments	May 17, 2022	Automatic Speech RecognitionAutomatic Speech Recognition (ASR)	—Unverified
Task splitting for DNN-based acoustic echo and noise removal	May 13, 2022	Acoustic echo cancellationSpeech Enhancement	—Unverified
A deep representation learning speech enhancement method using β-VAE	May 11, 2022	DisentanglementRepresentation Learning	—Unverified
Generalized Fast Multichannel Nonnegative Matrix Factorization Based on Gaussian Scale Mixtures for Blind Source Separation	May 11, 2022	blind source separationSpeech Enhancement	—Unverified
Speaker Reinforcement Using Target Source Extraction for Robust Automatic Speech Recognition	May 9, 2022	Automatic Speech RecognitionAutomatic Speech Recognition (ASR)	—Unverified
Acoustic echo suppression using a learning-based multi-frame minimum variance distortionless response filter	May 7, 2022	parameter estimationSpeech Enhancement	—Unverified
On monoaural speech enhancement for automatic recognition of real noisy speech using mixture invariant training	May 3, 2022	Robust Speech RecognitionSpeech Enhancement	—Unverified
Improving Dual-Microphone Speech Enhancement by Learning Cross-Channel Features with Multi-Head Attention	May 3, 2022	DecoderMulti-Task Learning	—Unverified
A Meeting Transcription System for an Ad-Hoc Acoustic Sensor Network	May 2, 2022	Automatic Speech RecognitionAutomatic Speech Recognition (ASR)	—Unverified
Improved far-field speech recognition using Joint Variational Autoencoder	Apr 24, 2022	Automatic Speech RecognitionAutomatic Speech Recognition (ASR)	—Unverified
RadioSES: mmWave-Based Audioradio Speech Enhancement and Separation System	Apr 14, 2022	Speech EnhancementSpeech Separation	—Unverified
Receptive Field Analysis of Temporal Convolutional Networks for Monaural Speech Dereverberation	Apr 13, 2022	Speech DereverberationSpeech Enhancement	CodeCode Available
Listen only to me! How well can target speech extraction handle false alarms?	Apr 11, 2022	Speaker IdentificationSpeaker Verification	—Unverified
Exploiting Hidden Representations from a DNN-based Speech Recogniser for Speech Intelligibility Prediction in Hearing-impaired Listeners	Apr 8, 2022	PredictionSpeech Enhancement	CodeCode Available
FFC-SE: Fast Fourier Convolution for Speech Enhancement	Apr 6, 2022	Speech Enhancement	—Unverified
Expression-preserving face frontalization improves visually assisted speech processing	Apr 6, 2022	Face ModelLip Reading	—Unverified
Complex Recurrent Variational Autoencoder with Application to Speech Enhancement	Apr 5, 2022	Speech Enhancement	CodeCode Available
Audio-visual multi-channel speech separation, dereverberation and recognition	Apr 5, 2022	Automatic Speech RecognitionAutomatic Speech Recognition (ASR)	—Unverified
Fast Real-time Personalized Speech Enhancement: End-to-End Enhancement Network (E3Net) and Knowledge Distillation	Apr 2, 2022	Automatic Speech RecognitionAutomatic Speech Recognition (ASR)	—Unverified
End-to-End Integration of Speech Recognition, Speech Enhancement, and Self-Supervised Learning Representation	Apr 1, 2022	Automatic Speech RecognitionAutomatic Speech Recognition (ASR)	—Unverified

Show:10 25 50

← PrevPage 12 of 20Next →

All datasets VoiceBank + DEMAND Deep Noise Suppression (DNS) Challenge CHiME-3 EARS-WHAM EasyCom DNS Challenge VB-DemandEx WHAMR!WSJ0 + DEMAND + RNNoise RealMAN VoiceBank+DEMAND DEMAND

Benchmark Results

#	Model	Metric	Claimed	Verified	Status
1	ROSE-CD(PESQ)	PESQ (wb)	3.99	—	Unverified
2	PESQetarian	PESQ (wb)	3.82	—	Unverified
3	Mamba-SEUNet L (+PCS)	PESQ (wb)	3.73	—	Unverified
4	Schrödinger bridge (PESQ loss)	PESQ (wb)	3.7	—	Unverified
5	SEMamba (+PCS)	PESQ (wb)	3.69	—	Unverified
6	ZipEnhancer (S, \lamba_6 = 0)	PESQ (wb)	3.63	—	Unverified
7	PrimeK-Net	PESQ (wb)	3.61	—	Unverified
8	ZipEnhancer (S, \lamba_6 = 0.2)	PESQ (wb)	3.61	—	Unverified
9	MP-SENet	PESQ (wb)	3.6	—	Unverified
10	PCS_CS_WAVLM	PESQ (wb)	3.54	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	BSRNN-S + MGD	SI-SDR-WB	21.4	—	Unverified
2	DTLN	SI-SDR-WB	16.34	—	Unverified
3	Non-Real-Time MultiScale+	SI-SDR-WB	16.22	—	Unverified
4	ZipEnhancer (M)	PESQ-WB	3.81	—	Unverified
5	TF-Locoformer (M)	PESQ-WB	3.72	—	Unverified
6	ZipEnhancer (S)	PESQ-WB	3.69	—	Unverified
7	MambAttention	PESQ-WB	3.67	—	Unverified
8	MP-SENet	PESQ-WB	3.62	—	Unverified
9	xLSTM-SENet	PESQ-WB	3.59	—	Unverified
10	BSRNN-S + MRSD	PESQ-WB	3.53	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	Inter-Channel Conv-TasNet	SDR	19.67	—	Unverified
2	CA Dense U-Net (Complex)	SDR	18.64	—	Unverified
3	Dense U-Net (Complex)	SDR	18.4	—	Unverified
4	Dense U-Net (Real)	SDR	16.86	—	Unverified
5	U-Net (Real)	SDR	15.97	—	Unverified
6	Noisy/unprocessed	SDR	6.5	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	Schrödinger Bridge (PESQ loss)	PESQ-WB	3.09	—	Unverified
2	SGMSE+	PESQ-WB	2.5	—	Unverified
3	Demucs v4	PESQ-WB	2.37	—	Unverified
4	Schrödinger Bridge	PESQ-WB	2.33	—	Unverified
5	Conv-TasNet	PESQ-WB	2.31	—	Unverified
6	CDiffuSE	PESQ-WB	1.6	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	ReVISE (ch2)	Audio Quality MOS	4.19	—	Unverified
2	ReVISE (bf)	Audio Quality MOS	4.11	—	Unverified
3	Demucs (ch2)	Audio Quality MOS	2.95	—	Unverified
4	Demucs (bf)	Audio Quality MOS	2.39	—	Unverified
5	MaxDI (Baseline)	PESQ	1.17	—	Unverified
6	DAJA (MVDR,HMA,1000) (Overlapped Speech)	SDR	-4.76	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	ZipEnhancer (M)	PESQ-NB	4.08	—	Unverified
2	DCCRN-MC	PESQ-NB	3.21	—	Unverified
3	DCCRN-M	PESQ-NB	3.15	—	Unverified
4	DCCRN	PESQ-NB	3.04	—	Unverified
5	RNN-Modulation	PESQ-WB	2.75	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	MambAttention	ESTOI	0.8	—	Unverified
2	SEMamba	ESTOI	0.8	—	Unverified
3	xLSTM-SENet	ESTOI	0.8	—	Unverified
4	MP-SENet	ESTOI	0.79	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	SepFormer	PESQ	2.84	—	Unverified
2	DTLN	PESQ	2.23	—	Unverified
3	Unprocessed	PESQ	1.83	—	Unverified
4	Non-Real-Time MultiScale+	PESQ	1.52	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	DCUNet-MC	PESQ-NB	3.44	—	Unverified
2	DCCRN-M	PESQ-NB	3.28	—	Unverified
3	DCUNet	PESQ-NB	3.25	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	CleanMel-L-map	DNSMOS	3.82	—	Unverified
2	SpatialNet	DNSMOS BAK	3.43	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	rose_cd(PESQ )	PESQ	3.99	—	Unverified
2	ROSE-CD	PESQ	3.49	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	Wave-U-Net	CBAK	3.24	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	Audio-Visual concat-ref	PESQ	2.7	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	SE-MelGAN	Audio Quality MOS	3.1	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	DeFT-AN	PESQ	3.01	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	Audio-Visual concat-ref	PESQ	3.03	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	SepFormer	PESQ	3.07	—	Unverified