Speech Enhancement

Speech Enhancement is a signal processing task that involves improving the quality of speech signals captured under noisy or degraded conditions. The goal of speech enhancement is to make speech signals clearer, more intelligible, and more pleasant to listen to, which can be used for various applications such as voice recognition, teleconferencing, and hearing aids. A representative Github project with online demo : ClearerVoice-Studio.

( Image credit: A Fully Convolutional Neural Network For Speech Enhancement )

Papers

Recently Added Most Hyped Most Active Needs Verification Most Verified

Showing 401–450 of 982 papers

Title	Date	Tasks	Status	Hype
McNet: Fuse Multiple Cues for Multichannel Speech Enhancement	Nov 16, 2022	Speech Enhancement	CodeCode Available	1
Array Configuration-Agnostic Personalized Speech Enhancement using Long-Short-Term Spatial Coherence	Nov 16, 2022	Speech Enhancement	—Unverified	0
Leveraging Heteroscedastic Uncertainty in Learning Complex Spectral Mapping for Single-channel Speech Enhancement	Nov 16, 2022	Speech Enhancement	—Unverified	0
Hybrid Transformers for Music Source Separation	Nov 15, 2022	Music Source SeparationSpeech Enhancement	CodeCode Available	5
Multi-Label Training for Text-Independent Speaker Identification	Nov 14, 2022	Ensemble LearningSpeaker Identification	—Unverified	0
The Potential of Neural Speech Synthesis-based Data Augmentation for Personalized Speech Enhancement	Nov 14, 2022	Data AugmentationSpeech Enhancement	—Unverified	0
SceneFake: An Initial Dataset and Benchmarks for Scene Fake Audio Detection	Nov 11, 2022	Speech Enhancement	CodeCode Available	1
Cross-Attention is all you need: Real-Time Streaming Transformers for Personalised Speech Enhancement	Nov 8, 2022	AllSpeech Enhancement	—Unverified	0
DiffPhase: Generative Diffusion-based STFT Phase Retrieval	Nov 8, 2022	ImputationRetrieval	—Unverified	0
Egocentric Audio-Visual Noise Suppression	Nov 7, 2022	Action ClassificationEvent Detection	—Unverified	0
Breaking the trade-off in personalized speech enhancement with cross-task knowledge distillation	Nov 5, 2022	Knowledge DistillationSpeech Enhancement	—Unverified	0
Self-Supervised Learning for Speech Enhancement through Synthesis	Nov 4, 2022	DenoisingSelf-Supervised Learning	CodeCode Available	0
Analysing Diffusion-based Generative Approaches versus Discriminative Approaches for Speech Restoration	Nov 4, 2022	Bandwidth ExtensionSpeech Denoising	—Unverified	0
Speech enhancement using ego-noise references with a microphone array embedded in an unmanned aerial vehicle	Nov 4, 2022	Speech Enhancement	—Unverified	0
Real-Time Joint Personalized Speech Enhancement and Acoustic Echo Cancellation	Nov 4, 2022	Acoustic echo cancellationMulti-Task Learning	—Unverified	0
Cold Diffusion for Speech Enhancement	Nov 4, 2022	Speech Enhancement	—Unverified	0
Iterative autoregression: a novel trick to improve your low-latency speech enhancement model	Nov 3, 2022	Speech Enhancement	—Unverified	0
Dynamic Kernels and Channel Attention for Low Resource Speaker Verification	Nov 3, 2022	Speaker VerificationSpeech Enhancement	—Unverified	0
Fast and efficient speech enhancement with variational autoencoders	Nov 2, 2022	Computational EfficiencySpeech Enhancement	—Unverified	0
A weighted-variance variational autoencoder model for speech enhancement	Nov 2, 2022	Speech Enhancement	—Unverified	0
Analysis of Noisy-target Training for DNN-based speech enhancement	Nov 2, 2022	Speech Enhancement	—Unverified	0
Inference and Denoise: Causal Inference-based Neural Speech Enhancement	Nov 2, 2022	Causal InferenceSpeech Enhancement	CodeCode Available	1
Audio-visual speech enhancement with a deep Kalman filter generative model	Nov 2, 2022	Speech Enhancement	—Unverified	0
Exploiting the compressed spectral loss for the learning of the DEMUCS speech enhancement network	Nov 1, 2022	Speech Enhancement	—Unverified	0
A Preliminary Study of the Application of Discrete Wavelet Transform Features in Conv-TasNet Speech Enhancement Model	Nov 1, 2022	Speech Enhancement	—Unverified	0
SCA: Streaming Cross-attention Alignment for Echo Cancellation	Nov 1, 2022	Speech EnhancementSpeech Separation	—Unverified	0
Audio-Visual Speech Enhancement and Separation by Utilizing Multi-Modal Self-Supervised Embeddings	Oct 31, 2022	Automatic Speech RecognitionAutomatic Speech Recognition (ASR)	—Unverified	0
Diffusion-based Generative Speech Source Separation	Oct 31, 2022	Speech Enhancement	CodeCode Available	1
Diffiner: A Versatile Diffusion-based Generative Refiner for Speech Enhancement	Oct 27, 2022	DenoisingSpeech Enhancement	CodeCode Available	1
A Training and Inference Strategy Using Noisy and Enhanced Speech as Target for Speech Enhancement without Clean Speech	Oct 27, 2022	Speech Enhancement	CodeCode Available	0
Parallel Gated Neural Network With Attention Mechanism For Speech Enhancement	Oct 26, 2022	Speech Enhancement	—Unverified	0
SCP-GAN: Self-Correcting Discriminator Optimization for Training Consistency Preserving Metric GAN on Speech Enhancement Tasks	Oct 26, 2022	Speech Enhancement	—Unverified	0
TridentSE: Guiding Speech Enhancement with 32 Global Tokens	Oct 24, 2022	Speech Enhancement	—Unverified	0
Time-Domain Speech Enhancement for Robust Automatic Speech Recognition	Oct 24, 2022	Automatic Speech RecognitionAutomatic Speech Recognition (ASR)	—Unverified	0
A Novel Frame Structure for Cloud-Based Audio-Visual Speech Enhancement in Multimodal Hearing-aids	Oct 24, 2022	Lip ReadingSpeech Enhancement	—Unverified	0
Improved Normalizing Flow-Based Speech Enhancement using an All-pole Gammatone Filterbank for Conditional Input Representation	Oct 21, 2022	AllSpeech Enhancement	—Unverified	0
spatial-dccrn: dccrn equipped with frame-level angle feature and hybrid filtering for multi-channel speech enhancement	Oct 17, 2022	DenoisingSpeech Enhancement	—Unverified	0
Accelerating RNN-based Speech Enhancement on a Multi-Core MCU with Mixed FP16-INT8 Post-Training Quantization	Oct 14, 2022	QuantizationSpeech Enhancement	—Unverified	0
LeVoice ASR Systems for the ISCSLP 2022 Intelligent Cockpit Speech Recognition Challenge	Oct 14, 2022	Automatic Speech RecognitionAutomatic Speech Recognition (ASR)	—Unverified	0
Binaural Speech Enhancement Using STOI-Optimal Masks	Sep 30, 2022	Speech Enhancement	—Unverified	0
Speech Enhancement Using Self-Supervised Pre-Trained Model and Vector Quantization	Sep 28, 2022	DecoderDenoising	—Unverified	0
Speech Enhancement with Perceptually-motivated Optimization and Dual Transformations	Sep 24, 2022	Speech Enhancement	—Unverified	0
MMS-MSG: A Multi-purpose Multi-Speaker Mixture Signal Generator	Sep 23, 2022	Speech Enhancement	CodeCode Available	1
CMGAN: Conformer-Based Metric-GAN for Monaural Speech Enhancement	Sep 22, 2022	Audio Super-ResolutionAutomatic Speech Recognition	CodeCode Available	2
GIST-AiTeR System for the Diarization Task of the 2022 VoxCeleb Speaker Recognition Challenge	Sep 21, 2022	Action DetectionActivity Detection	—Unverified	0
A Universally-Deployable ASR Frontend for Joint Acoustic Echo Cancellation, Speech Enhancement, and Voice Separation	Sep 14, 2022	Acoustic echo cancellationAutomatic Speech Recognition	—Unverified	0
Multimodal Speech Enhancement Using Burst Propagation	Sep 7, 2022	ManagementSpeech Enhancement	—Unverified	0
Multi-View Attention Transfer for Efficient Speech Enhancement	Aug 22, 2022	Knowledge DistillationSpeech Enhancement	—Unverified	0
Speech Enhancement and Dereverberation with Diffusion-based Generative Models	Aug 11, 2022	Speech DereverberationSpeech Enhancement	—Unverified	0
DNN-Free Low-Latency Adaptive Speech Enhancement Based on Frame-Online Beamforming Powered by Block-Online FastMNMF	Jul 22, 2022	blind source separationSpeech Enhancement	—Unverified	0

Show:10 25 50

← PrevPage 9 of 20Next →

All datasets VoiceBank + DEMAND Deep Noise Suppression (DNS) Challenge CHiME-3 EARS-WHAM EasyCom DNS Challenge VB-DemandEx WHAMR!WSJ0 + DEMAND + RNNoise RealMAN VoiceBank+DEMAND DEMAND

Benchmark Results

#	Model	Metric	Claimed	Verified	Status
1	ROSE-CD(PESQ)	PESQ (wb)	3.99	—	Unverified
2	PESQetarian	PESQ (wb)	3.82	—	Unverified
3	Mamba-SEUNet L (+PCS)	PESQ (wb)	3.73	—	Unverified
4	Schrödinger bridge (PESQ loss)	PESQ (wb)	3.7	—	Unverified
5	SEMamba (+PCS)	PESQ (wb)	3.69	—	Unverified
6	ZipEnhancer (S, \lamba_6 = 0)	PESQ (wb)	3.63	—	Unverified
7	PrimeK-Net	PESQ (wb)	3.61	—	Unverified
8	ZipEnhancer (S, \lamba_6 = 0.2)	PESQ (wb)	3.61	—	Unverified
9	MP-SENet	PESQ (wb)	3.6	—	Unverified
10	PCS_CS_WAVLM	PESQ (wb)	3.54	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	BSRNN-S + MGD	SI-SDR-WB	21.4	—	Unverified
2	DTLN	SI-SDR-WB	16.34	—	Unverified
3	Non-Real-Time MultiScale+	SI-SDR-WB	16.22	—	Unverified
4	ZipEnhancer (M)	PESQ-WB	3.81	—	Unverified
5	TF-Locoformer (M)	PESQ-WB	3.72	—	Unverified
6	ZipEnhancer (S)	PESQ-WB	3.69	—	Unverified
7	MambAttention	PESQ-WB	3.67	—	Unverified
8	MP-SENet	PESQ-WB	3.62	—	Unverified
9	xLSTM-SENet	PESQ-WB	3.59	—	Unverified
10	BSRNN-S + MRSD	PESQ-WB	3.53	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	Inter-Channel Conv-TasNet	SDR	19.67	—	Unverified
2	CA Dense U-Net (Complex)	SDR	18.64	—	Unverified
3	Dense U-Net (Complex)	SDR	18.4	—	Unverified
4	Dense U-Net (Real)	SDR	16.86	—	Unverified
5	U-Net (Real)	SDR	15.97	—	Unverified
6	Noisy/unprocessed	SDR	6.5	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	Schrödinger Bridge (PESQ loss)	PESQ-WB	3.09	—	Unverified
2	SGMSE+	PESQ-WB	2.5	—	Unverified
3	Demucs v4	PESQ-WB	2.37	—	Unverified
4	Schrödinger Bridge	PESQ-WB	2.33	—	Unverified
5	Conv-TasNet	PESQ-WB	2.31	—	Unverified
6	CDiffuSE	PESQ-WB	1.6	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	ReVISE (ch2)	Audio Quality MOS	4.19	—	Unverified
2	ReVISE (bf)	Audio Quality MOS	4.11	—	Unverified
3	Demucs (ch2)	Audio Quality MOS	2.95	—	Unverified
4	Demucs (bf)	Audio Quality MOS	2.39	—	Unverified
5	MaxDI (Baseline)	PESQ	1.17	—	Unverified
6	DAJA (MVDR,HMA,1000) (Overlapped Speech)	SDR	-4.76	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	ZipEnhancer (M)	PESQ-NB	4.08	—	Unverified
2	DCCRN-MC	PESQ-NB	3.21	—	Unverified
3	DCCRN-M	PESQ-NB	3.15	—	Unverified
4	DCCRN	PESQ-NB	3.04	—	Unverified
5	RNN-Modulation	PESQ-WB	2.75	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	MambAttention	ESTOI	0.8	—	Unverified
2	SEMamba	ESTOI	0.8	—	Unverified
3	xLSTM-SENet	ESTOI	0.8	—	Unverified
4	MP-SENet	ESTOI	0.79	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	SepFormer	PESQ	2.84	—	Unverified
2	DTLN	PESQ	2.23	—	Unverified
3	Unprocessed	PESQ	1.83	—	Unverified
4	Non-Real-Time MultiScale+	PESQ	1.52	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	DCUNet-MC	PESQ-NB	3.44	—	Unverified
2	DCCRN-M	PESQ-NB	3.28	—	Unverified
3	DCUNet	PESQ-NB	3.25	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	CleanMel-L-map	DNSMOS	3.82	—	Unverified
2	SpatialNet	DNSMOS BAK	3.43	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	rose_cd(PESQ )	PESQ	3.99	—	Unverified
2	ROSE-CD	PESQ	3.49	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	Wave-U-Net	CBAK	3.24	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	Audio-Visual concat-ref	PESQ	2.7	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	SE-MelGAN	Audio Quality MOS	3.1	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	DeFT-AN	PESQ	3.01	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	Audio-Visual concat-ref	PESQ	3.03	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	SepFormer	PESQ	3.07	—	Unverified