Speech Enhancement

Speech Enhancement is a signal processing task that involves improving the quality of speech signals captured under noisy or degraded conditions. The goal of speech enhancement is to make speech signals clearer, more intelligible, and more pleasant to listen to, which can be used for various applications such as voice recognition, teleconferencing, and hearing aids. A representative Github project with online demo : ClearerVoice-Studio.

( Image credit: A Fully Convolutional Neural Network For Speech Enhancement )

Papers

Recently Added Most Hyped Most Active Needs Verification Most Verified

Showing 101–150 of 982 papers

Title	Date	Tasks	Status	Hype
Task-Aware Unified Source Separation	Oct 31, 2024	Audio Source SeparationMusic Source Separation	—Unverified	0
Run-Time Adaptation of Neural Beamforming for Robust Speech Dereverberation and Denoising	Oct 30, 2024	Automatic Speech RecognitionAutomatic Speech Recognition (ASR)	—Unverified	0
Simultaneous Diarization and Separation of Meetings through the Integration of Statistical Mixture Models	Oct 28, 2024	Speech Enhancement	—Unverified	0
ELAICHI: Enhancing Low-resource TTS by Addressing Infrequent and Low-frequency Character Bigrams	Oct 23, 2024	Automatic Speech RecognitionAutomatic Speech Recognition (ASR)	—Unverified	0
Using RLHF to align speech enhancement approaches to mean-opinion quality scores	Oct 17, 2024	Speech Enhancement	—Unverified	0
GAN-Based Speech Enhancement for Low SNR Using Latent Feature Conditioning	Oct 17, 2024	Generative Adversarial NetworkSpeech Enhancement	—Unverified	0
FINALLY: fast and universal speech enhancement with studio-like quality	Oct 8, 2024	Speech Enhancement	—Unverified	0
Towards Ultra-Low-Power Neuromorphic Speech Enhancement with Spiking-FullSubNet	Oct 7, 2024	DenoisingSpeech Denoising	CodeCode Available	2
RelUNet: Relative Channel Fusion U-Net for Multichannel Speech Enhancement	Oct 7, 2024	Speech Enhancement	—Unverified	0
Diffusion-based Unsupervised Audio-visual Speech Enhancement	Oct 4, 2024	Speech Enhancement	—Unverified	0
Restorative Speech Enhancement: A Progressive Approach Using SE and Codec Modules	Oct 2, 2024	QuantizationSpeech Enhancement	—Unverified	0
SonicSim: A customizable simulation platform for speech processing in moving sound source scenarios	Oct 2, 2024	Speech EnhancementSpeech Separation	CodeCode Available	3
Advanced Clustering Techniques for Speech Signal Enhancement: A Review and Metanalysis of Fuzzy C-Means, K-Means, and Kernel Fuzzy C-Means Methods	Sep 28, 2024	ClusteringSpeech Enhancement	—Unverified	0
Speech Boosting: Low-Latency Live Speech Enhancement for TWS Earbuds	Sep 27, 2024	Speech Enhancement	—Unverified	0
Towards Sub-millisecond Latency Real-Time Speech Enhancement Models on Hearables	Sep 26, 2024	Speech Enhancement	—Unverified	0
MC-SEMamba: A Simple Multi-channel Extension of SEMamba	Sep 26, 2024	MambaSpeech Enhancement	—Unverified	0
An Explicit Consistency-Preserving Loss Function for Phase Reconstruction and Speech Enhancement	Sep 24, 2024	Speech Enhancement	—Unverified	0
Robust Audio-Visual Speech Enhancement: Correcting Misassignments in Complex Environments with Advanced Post-Processing	Sep 22, 2024	Speech Enhancement	—Unverified	0
Self-Supervised Audio-Visual Soundscape Stylization	Sep 22, 2024	Speech Enhancement	—Unverified	0
LiSenNet: Lightweight Sub-band and Dual-Path Modeling for Real-Time Speech Enhancement	Sep 20, 2024	Speech Enhancement	CodeCode Available	2
Geometry-Constrained EEG Channel Selection for Brain-Assisted Speech Enhancement	Sep 19, 2024	channel selectionEEG	—Unverified	0
Speech-Declipping Transformer with Complex Spectrogram and Learnerble Temporal Features	Sep 19, 2024	Speech Enhancement	—Unverified	0
A Lightweight and Real-Time Binaural Speech Enhancement Model with Spatial Cues Preservation	Sep 19, 2024	Speech Enhancement	CodeCode Available	1
Dense-TSNet: Dense Connected Two-Stage Structure for Ultra-Lightweight Speech Enhancement	Sep 18, 2024	MambaSpeech Enhancement	—Unverified	0
High-Resolution Speech Restoration with Latent Diffusion Model	Sep 17, 2024	modelSpeech Enhancement	CodeCode Available	0
TCG CREST System Description for the Second DISPLACE Challenge	Sep 16, 2024	Action DetectionActivity Detection	—Unverified	0
Investigating Training Objectives for Generative Speech Enhancement	Sep 16, 2024	Speech Enhancement	CodeCode Available	0
Leveraging Joint Spectral and Spatial Learning with MAMBA for Multichannel Speech Enhancement	Sep 16, 2024	MambaSpeech Enhancement	—Unverified	0
Ultra-Low Latency Speech Enhancement - A Comprehensive Study	Sep 16, 2024	MambaSpeech Enhancement	—Unverified	0
Apollo: Band-sequence Modeling for High-Quality Audio Restoration	Sep 13, 2024	Computational EfficiencySpeech Enhancement	CodeCode Available	3
Rethinking Mamba in Speech Processing by Self-Supervised Models	Sep 11, 2024	MambaSpeech Enhancement	—Unverified	0
DeWinder: Single-Channel Wind Noise Reduction using Ultrasound Sensing	Sep 10, 2024	Speech Enhancement	—Unverified	0
IndicVoices-R: Unlocking a Massive Multilingual Multi-speaker Speech Corpus for Scaling Indian TTS	Sep 9, 2024	DenoisingSpeech Enhancement	CodeCode Available	2
TF-Mamba: A Time-Frequency Network for Sound Source Localization	Sep 8, 2024	MambaSound Source Localization	—Unverified	0
Diffusion-based Speech Enhancement with Schrödinger Bridge and Symmetric Noise Schedule	Sep 8, 2024	Speech Enhancement	—Unverified	0
aTENNuate: Optimized Real-time Speech Enhancement with Deep SSMs on Raw Audio	Sep 5, 2024	Audio DenoisingDenoising	—Unverified	0
LSTMSE-Net: Long Short Term Speech Enhancement Network for Audio-visual Speech Enhancement	Sep 3, 2024	DecoderSpeech Enhancement	CodeCode Available	1
Effective Noise-aware Data Simulation for Domain-adaptive Speech Enhancement Leveraging Dynamic Stochastic Perturbation	Sep 3, 2024	Speech Enhancement	CodeCode Available	0
Progressive Residual Extraction based Pre-training for Speech Representation Learning	Aug 31, 2024	Emotion RecognitionRepresentation Learning	—Unverified	0
Hold Me Tight: Stable Encoder-Decoder Design for Speech Enhancement	Aug 30, 2024	DecoderSpeech Enhancement	CodeCode Available	1
Spectral Masking with Explicit Time-Context Windowing for Neural Network-Based Monaural Speech Enhancement	Aug 28, 2024	Speech Enhancement	—Unverified	0
Dynamic Gated Recurrent Neural Network for Compute-efficient Speech Enhancement	Aug 22, 2024	Speech Enhancement	—Unverified	0
DPSNN: Spiking Neural Network for Low-Latency Streaming Speech Enhancement	Aug 14, 2024	Automatic Speech RecognitionSpeech Enhancement	—Unverified	0
Direction of Arrival Correction through Speech Quality Feedback	Aug 13, 2024	Speech Enhancement	CodeCode Available	0
Heterogeneous Space Fusion and Dual-Dimension Attention: A New Paradigm for Speech Enhancement	Aug 13, 2024	Self-Supervised LearningSpeech Enhancement	—Unverified	0
BSS-CFFMA: Cross-Domain Feature Fusion and Multi-Attention Speech Enhancement Network based on Self-Supervised Embedding	Aug 13, 2024	DenoisingSelf-Supervised Learning	CodeCode Available	0
One-Shot Distributed Node-Specific Signal Estimation with Non-Overlapping Latent Subspaces in Acoustic Sensor Networks	Aug 7, 2024	Speech Enhancement	—Unverified	0
TF-Locoformer: Transformer with Local Modeling by Convolution for Speech Separation and Enhancement	Aug 6, 2024	Speech EnhancementSpeech Separation	CodeCode Available	2
ctPuLSE: Close-Talk, and Pseudo-Label Based Far-Field, Speech Enhancement	Jul 28, 2024	Pseudo LabelSpeech Enhancement	—Unverified	0
Speech Bandwidth Expansion Via High Fidelity Generative Adversarial Networks	Jul 26, 2024	Generative Adversarial NetworkSpeech Enhancement	—Unverified	0

Show:10 25 50

← PrevPage 3 of 20Next →

All datasets VoiceBank + DEMAND Deep Noise Suppression (DNS) Challenge CHiME-3 EARS-WHAM EasyCom DNS Challenge VB-DemandEx WHAMR!WSJ0 + DEMAND + RNNoise RealMAN VoiceBank+DEMAND DEMAND

Benchmark Results

#	Model	Metric	Claimed	Verified	Status
1	ROSE-CD(PESQ)	PESQ (wb)	3.99	—	Unverified
2	PESQetarian	PESQ (wb)	3.82	—	Unverified
3	Mamba-SEUNet L (+PCS)	PESQ (wb)	3.73	—	Unverified
4	Schrödinger bridge (PESQ loss)	PESQ (wb)	3.7	—	Unverified
5	SEMamba (+PCS)	PESQ (wb)	3.69	—	Unverified
6	ZipEnhancer (S, \lamba_6 = 0)	PESQ (wb)	3.63	—	Unverified
7	PrimeK-Net	PESQ (wb)	3.61	—	Unverified
8	ZipEnhancer (S, \lamba_6 = 0.2)	PESQ (wb)	3.61	—	Unverified
9	MP-SENet	PESQ (wb)	3.6	—	Unverified
10	PCS_CS_WAVLM	PESQ (wb)	3.54	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	BSRNN-S + MGD	SI-SDR-WB	21.4	—	Unverified
2	DTLN	SI-SDR-WB	16.34	—	Unverified
3	Non-Real-Time MultiScale+	SI-SDR-WB	16.22	—	Unverified
4	ZipEnhancer (M)	PESQ-WB	3.81	—	Unverified
5	TF-Locoformer (M)	PESQ-WB	3.72	—	Unverified
6	ZipEnhancer (S)	PESQ-WB	3.69	—	Unverified
7	MambAttention	PESQ-WB	3.67	—	Unverified
8	MP-SENet	PESQ-WB	3.62	—	Unverified
9	xLSTM-SENet	PESQ-WB	3.59	—	Unverified
10	BSRNN-S + MRSD	PESQ-WB	3.53	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	Inter-Channel Conv-TasNet	SDR	19.67	—	Unverified
2	CA Dense U-Net (Complex)	SDR	18.64	—	Unverified
3	Dense U-Net (Complex)	SDR	18.4	—	Unverified
4	Dense U-Net (Real)	SDR	16.86	—	Unverified
5	U-Net (Real)	SDR	15.97	—	Unverified
6	Noisy/unprocessed	SDR	6.5	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	Schrödinger Bridge (PESQ loss)	PESQ-WB	3.09	—	Unverified
2	SGMSE+	PESQ-WB	2.5	—	Unverified
3	Demucs v4	PESQ-WB	2.37	—	Unverified
4	Schrödinger Bridge	PESQ-WB	2.33	—	Unverified
5	Conv-TasNet	PESQ-WB	2.31	—	Unverified
6	CDiffuSE	PESQ-WB	1.6	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	ReVISE (ch2)	Audio Quality MOS	4.19	—	Unverified
2	ReVISE (bf)	Audio Quality MOS	4.11	—	Unverified
3	Demucs (ch2)	Audio Quality MOS	2.95	—	Unverified
4	Demucs (bf)	Audio Quality MOS	2.39	—	Unverified
5	MaxDI (Baseline)	PESQ	1.17	—	Unverified
6	DAJA (MVDR,HMA,1000) (Overlapped Speech)	SDR	-4.76	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	ZipEnhancer (M)	PESQ-NB	4.08	—	Unverified
2	DCCRN-MC	PESQ-NB	3.21	—	Unverified
3	DCCRN-M	PESQ-NB	3.15	—	Unverified
4	DCCRN	PESQ-NB	3.04	—	Unverified
5	RNN-Modulation	PESQ-WB	2.75	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	MambAttention	ESTOI	0.8	—	Unverified
2	SEMamba	ESTOI	0.8	—	Unverified
3	xLSTM-SENet	ESTOI	0.8	—	Unverified
4	MP-SENet	ESTOI	0.79	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	SepFormer	PESQ	2.84	—	Unverified
2	DTLN	PESQ	2.23	—	Unverified
3	Unprocessed	PESQ	1.83	—	Unverified
4	Non-Real-Time MultiScale+	PESQ	1.52	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	DCUNet-MC	PESQ-NB	3.44	—	Unverified
2	DCCRN-M	PESQ-NB	3.28	—	Unverified
3	DCUNet	PESQ-NB	3.25	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	CleanMel-L-map	DNSMOS	3.82	—	Unverified
2	SpatialNet	DNSMOS BAK	3.43	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	rose_cd(PESQ )	PESQ	3.99	—	Unverified
2	ROSE-CD	PESQ	3.49	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	Wave-U-Net	CBAK	3.24	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	Audio-Visual concat-ref	PESQ	2.7	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	SE-MelGAN	Audio Quality MOS	3.1	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	DeFT-AN	PESQ	3.01	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	Audio-Visual concat-ref	PESQ	3.03	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	SepFormer	PESQ	3.07	—	Unverified