Speech Enhancement

Speech Enhancement is a signal processing task that involves improving the quality of speech signals captured under noisy or degraded conditions. The goal of speech enhancement is to make speech signals clearer, more intelligible, and more pleasant to listen to, which can be used for various applications such as voice recognition, teleconferencing, and hearing aids. A representative Github project with online demo : ClearerVoice-Studio.

( Image credit: A Fully Convolutional Neural Network For Speech Enhancement )

Papers

Recently Added Most Hyped Most Active Needs Verification Most Verified

Showing 301–350 of 982 papers

Title	Date	Tasks	Status
Ultra-Low Latency Speech Enhancement - A Comprehensive Study	Sep 16, 2024	MambaSpeech Enhancement	—Unverified
Leveraging Joint Spectral and Spatial Learning with MAMBA for Multichannel Speech Enhancement	Sep 16, 2024	MambaSpeech Enhancement	—Unverified
Investigating Training Objectives for Generative Speech Enhancement	Sep 16, 2024	Speech Enhancement	—Unverified
TCG CREST System Description for the Second DISPLACE Challenge	Sep 16, 2024	Action DetectionActivity Detection	—Unverified
Rethinking Mamba in Speech Processing by Self-Supervised Models	Sep 11, 2024	MambaSpeech Enhancement	—Unverified
DeWinder: Single-Channel Wind Noise Reduction using Ultrasound Sensing	Sep 10, 2024	Speech Enhancement	—Unverified
TF-Mamba: A Time-Frequency Network for Sound Source Localization	Sep 8, 2024	MambaSound Source Localization	—Unverified
Diffusion-based Speech Enhancement with Schrödinger Bridge and Symmetric Noise Schedule	Sep 8, 2024	Speech Enhancement	—Unverified
aTENNuate: Optimized Real-time Speech Enhancement with Deep SSMs on Raw Audio	Sep 5, 2024	Audio DenoisingDenoising	—Unverified
Effective Noise-aware Data Simulation for Domain-adaptive Speech Enhancement Leveraging Dynamic Stochastic Perturbation	Sep 3, 2024	Speech Enhancement	CodeCode Available
Progressive Residual Extraction based Pre-training for Speech Representation Learning	Aug 31, 2024	Emotion RecognitionRepresentation Learning	—Unverified
Spectral Masking with Explicit Time-Context Windowing for Neural Network-Based Monaural Speech Enhancement	Aug 28, 2024	Speech Enhancement	—Unverified
Dynamic Gated Recurrent Neural Network for Compute-efficient Speech Enhancement	Aug 22, 2024	Speech Enhancement	—Unverified
DPSNN: Spiking Neural Network for Low-Latency Streaming Speech Enhancement	Aug 14, 2024	Automatic Speech RecognitionSpeech Enhancement	—Unverified
Heterogeneous Space Fusion and Dual-Dimension Attention: A New Paradigm for Speech Enhancement	Aug 13, 2024	Self-Supervised LearningSpeech Enhancement	—Unverified
BSS-CFFMA: Cross-Domain Feature Fusion and Multi-Attention Speech Enhancement Network based on Self-Supervised Embedding	Aug 13, 2024	DenoisingSelf-Supervised Learning	CodeCode Available
Direction of Arrival Correction through Speech Quality Feedback	Aug 13, 2024	Speech Enhancement	CodeCode Available
One-Shot Distributed Node-Specific Signal Estimation with Non-Overlapping Latent Subspaces in Acoustic Sensor Networks	Aug 7, 2024	Speech Enhancement	—Unverified
ctPuLSE: Close-Talk, and Pseudo-Label Based Far-Field, Speech Enhancement	Jul 28, 2024	Pseudo LabelSpeech Enhancement	—Unverified
Speech Bandwidth Expansion Via High Fidelity Generative Adversarial Networks	Jul 26, 2024	Generative Adversarial NetworkSpeech Enhancement	—Unverified
Schrödinger Bridge for Generative Speech Enhancement	Jul 22, 2024	DenoisingSpeech Denoising	—Unverified
Wideband Relative Transfer Function (RTF) Estimation Exploiting Frequency Correlations	Jul 19, 2024	Fault DetectionSpeech Enhancement	CodeCode Available
RT-LA-VocE: Real-Time Low-SNR Audio-Visual Speech Enhancement	Jul 10, 2024	Speech Enhancement	—Unverified
Unsupervised Face-Masked Speech Enhancement Using Generative Adversarial Networks With Human-in-the-Loop Assessment Metrics	Jul 2, 2024	Speech Enhancement	—Unverified
Open-Source Conversational AI with SpeechBrain 1.0	Jun 29, 2024	Language ModelingLanguage Modelling	—Unverified
DASB -- Discrete Audio and Speech Benchmark	Jun 20, 2024	BenchmarkingEmotion Recognition	—Unverified
Diffusion-based Generative Modeling with Discriminative Guidance for Streamable Speech Enhancement	Jun 19, 2024	Speech Enhancement	—Unverified
Spatially constrained vs. unconstrained filtering in neural spatiospectral filters for multichannel speech enhancement	Jun 17, 2024	Speech Enhancement	—Unverified
An Exploration of Length Generalization in Transformer-Based Speech Enhancement	Jun 17, 2024	PositionSpeech Enhancement	—Unverified
Personalized Speech Enhancement Without a Separate Speaker Embedding Model	Jun 14, 2024	Speech Enhancement	—Unverified
FlowAVSE: Efficient Audio-Visual Speech Enhancement with Conditional Flow Matching	Jun 13, 2024	Speech Enhancement	—Unverified
Comparative Analysis of Personalized Voice Activity Detection Systems: Assessing Real-World Effectiveness	Jun 12, 2024	Action DetectionActivity Detection	—Unverified
Pre-training Feature Guided Diffusion Model for Speech Enhancement	Jun 11, 2024	Speech Enhancement	—Unverified
The Effect of Training Dataset Size on Discriminative and Diffusion-Based Speech Enhancement Systems	Jun 10, 2024	DiversityImage Generation	—Unverified
Thunder : Unified Regression-Diffusion Speech Enhancement with a Single Reverse Step using Brownian Bridge	Jun 10, 2024	regressionSpeech Enhancement	—Unverified
An Investigation of Noise Robustness for Flow-Matching-Based Zero-Shot TTS	Jun 9, 2024	DenoisingSpeech Denoising	—Unverified
URGENT Challenge: Universality, Robustness, and Generalizability For Speech Enhancement	Jun 7, 2024	Bandwidth ExtensionDenoising	—Unverified
Helsinki Speech Challenge 2024	Jun 6, 2024	Speech Enhancementspeech-recognition	—Unverified
Flexible Multichannel Speech Enhancement for Noise-Robust Frontend	Jun 6, 2024	Automatic Speech RecognitionAutomatic Speech Recognition (ASR)	—Unverified
PLDNet: PLD-Guided Lightweight Deep Network Boosted by Efficient Attention for Handheld Dual-Microphone Speech Enhancement	Jun 6, 2024	Speech Enhancement	—Unverified
Reference Channel Selection by Multi-Channel Masking for End-to-End Multi-Channel Speech Enhancement	Jun 5, 2024	channel selectionSpeech Enhancement	—Unverified
The PESQetarian: On the Relevance of Goodhart's Law for Speech Enhancement	Jun 5, 2024	Speech Enhancement	—Unverified
Speech enhancement deep-learning architecture for efficient edge processing	May 27, 2024	Deep LearningGenerative Adversarial Network	—Unverified
Non-autoregressive real-time Accent Conversion model with voice cloning	May 21, 2024	Speech Enhancementspeech-recognition	—Unverified
Monaural speech enhancement on drone via Adapter based transfer learning	May 16, 2024	Speech EnhancementTransfer Learning	—Unverified
Building a Luganda Text-to-Speech Model From Crowdsourced Data	May 16, 2024	Speech Enhancementtext-to-speech	—Unverified
Evaluating Speech Enhancement Systems Through Listening Effort	May 13, 2024	Speech Enhancement	—Unverified
Real-time multichannel deep speech enhancement in hearing aids: Comparing monaural and binaural processing in complex acoustic scenarios	May 3, 2024	Deep LearningSpeech Enhancement	—Unverified
TRAMBA: A Hybrid Transformer and Mamba Architecture for Practical Audio and Bone Conduction Speech Super Resolution and Enhancement on Mobile and Wearable Platforms	May 2, 2024	MambaSpeech Enhancement	—Unverified
Deep low-latency joint speech transmission and enhancement over a gaussian channel	Apr 30, 2024	DecoderSpeech Enhancement	—Unverified

Show:10 25 50

← PrevPage 7 of 20Next →

All datasets VoiceBank + DEMAND Deep Noise Suppression (DNS) Challenge CHiME-3 EARS-WHAM EasyCom DNS Challenge VB-DemandEx WHAMR!WSJ0 + DEMAND + RNNoise RealMAN VoiceBank+DEMAND DEMAND

Benchmark Results

#	Model	Metric	Claimed	Verified	Status
1	ROSE-CD(PESQ)	PESQ (wb)	3.99	—	Unverified
2	PESQetarian	PESQ (wb)	3.82	—	Unverified
3	Mamba-SEUNet L (+PCS)	PESQ (wb)	3.73	—	Unverified
4	Schrödinger bridge (PESQ loss)	PESQ (wb)	3.7	—	Unverified
5	SEMamba (+PCS)	PESQ (wb)	3.69	—	Unverified
6	ZipEnhancer (S, \lamba_6 = 0)	PESQ (wb)	3.63	—	Unverified
7	PrimeK-Net	PESQ (wb)	3.61	—	Unverified
8	ZipEnhancer (S, \lamba_6 = 0.2)	PESQ (wb)	3.61	—	Unverified
9	MP-SENet	PESQ (wb)	3.6	—	Unverified
10	PCS_CS_WAVLM	PESQ (wb)	3.54	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	BSRNN-S + MGD	SI-SDR-WB	21.4	—	Unverified
2	DTLN	SI-SDR-WB	16.34	—	Unverified
3	Non-Real-Time MultiScale+	SI-SDR-WB	16.22	—	Unverified
4	ZipEnhancer (M)	PESQ-WB	3.81	—	Unverified
5	TF-Locoformer (M)	PESQ-WB	3.72	—	Unverified
6	ZipEnhancer (S)	PESQ-WB	3.69	—	Unverified
7	MambAttention	PESQ-WB	3.67	—	Unverified
8	MP-SENet	PESQ-WB	3.62	—	Unverified
9	xLSTM-SENet	PESQ-WB	3.59	—	Unverified
10	BSRNN-S + MRSD	PESQ-WB	3.53	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	Inter-Channel Conv-TasNet	SDR	19.67	—	Unverified
2	CA Dense U-Net (Complex)	SDR	18.64	—	Unverified
3	Dense U-Net (Complex)	SDR	18.4	—	Unverified
4	Dense U-Net (Real)	SDR	16.86	—	Unverified
5	U-Net (Real)	SDR	15.97	—	Unverified
6	Noisy/unprocessed	SDR	6.5	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	Schrödinger Bridge (PESQ loss)	PESQ-WB	3.09	—	Unverified
2	SGMSE+	PESQ-WB	2.5	—	Unverified
3	Demucs v4	PESQ-WB	2.37	—	Unverified
4	Schrödinger Bridge	PESQ-WB	2.33	—	Unverified
5	Conv-TasNet	PESQ-WB	2.31	—	Unverified
6	CDiffuSE	PESQ-WB	1.6	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	ReVISE (ch2)	Audio Quality MOS	4.19	—	Unverified
2	ReVISE (bf)	Audio Quality MOS	4.11	—	Unverified
3	Demucs (ch2)	Audio Quality MOS	2.95	—	Unverified
4	Demucs (bf)	Audio Quality MOS	2.39	—	Unverified
5	MaxDI (Baseline)	PESQ	1.17	—	Unverified
6	DAJA (MVDR,HMA,1000) (Overlapped Speech)	SDR	-4.76	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	ZipEnhancer (M)	PESQ-NB	4.08	—	Unverified
2	DCCRN-MC	PESQ-NB	3.21	—	Unverified
3	DCCRN-M	PESQ-NB	3.15	—	Unverified
4	DCCRN	PESQ-NB	3.04	—	Unverified
5	RNN-Modulation	PESQ-WB	2.75	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	MambAttention	ESTOI	0.8	—	Unverified
2	SEMamba	ESTOI	0.8	—	Unverified
3	xLSTM-SENet	ESTOI	0.8	—	Unverified
4	MP-SENet	ESTOI	0.79	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	SepFormer	PESQ	2.84	—	Unverified
2	DTLN	PESQ	2.23	—	Unverified
3	Unprocessed	PESQ	1.83	—	Unverified
4	Non-Real-Time MultiScale+	PESQ	1.52	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	DCUNet-MC	PESQ-NB	3.44	—	Unverified
2	DCCRN-M	PESQ-NB	3.28	—	Unverified
3	DCUNet	PESQ-NB	3.25	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	CleanMel-L-map	DNSMOS	3.82	—	Unverified
2	SpatialNet	DNSMOS BAK	3.43	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	rose_cd(PESQ )	PESQ	3.99	—	Unverified
2	ROSE-CD	PESQ	3.49	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	Wave-U-Net	CBAK	3.24	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	Audio-Visual concat-ref	PESQ	2.7	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	SE-MelGAN	Audio Quality MOS	3.1	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	DeFT-AN	PESQ	3.01	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	Audio-Visual concat-ref	PESQ	3.03	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	SepFormer	PESQ	3.07	—	Unverified