Speech Enhancement

Speech Enhancement is a signal processing task that involves improving the quality of speech signals captured under noisy or degraded conditions. The goal of speech enhancement is to make speech signals clearer, more intelligible, and more pleasant to listen to, which can be used for various applications such as voice recognition, teleconferencing, and hearing aids. A representative Github project with online demo : ClearerVoice-Studio.

( Image credit: A Fully Convolutional Neural Network For Speech Enhancement )

Papers

Recently Added Most Hyped Most Active Needs Verification Most Verified

Showing 151–200 of 982 papers

Title	Date	Tasks	Status	Hype
Schrödinger Bridge for Generative Speech Enhancement	Jul 22, 2024	DenoisingSpeech Denoising	—Unverified	0
Wideband Relative Transfer Function (RTF) Estimation Exploiting Frequency Correlations	Jul 19, 2024	Fault DetectionSpeech Enhancement	CodeCode Available	0
Vibravox: A Dataset of French Speech Captured with Body-conduction Audio Sensors	Jul 16, 2024	Automatic Phoneme RecognitionAutomatic Speech Recognition (ASR)	CodeCode Available	1
RT-LA-VocE: Real-Time Low-SNR Audio-Visual Speech Enhancement	Jul 10, 2024	Speech Enhancement	—Unverified	0
Unsupervised Face-Masked Speech Enhancement Using Generative Adversarial Networks With Human-in-the-Loop Assessment Metrics	Jul 2, 2024	Speech Enhancement	—Unverified	0
Open-Source Conversational AI with SpeechBrain 1.0	Jun 29, 2024	Language ModelingLanguage Modelling	—Unverified	0
Exploiting Foundation Models and Speech Enhancement for Parkinson's Disease Detection from Speech in Real-World Operative Conditions	Jun 23, 2024	Audio ClassificationParkinson Detection from Speech	CodeCode Available	1
DASB -- Discrete Audio and Speech Benchmark	Jun 20, 2024	BenchmarkingEmotion Recognition	—Unverified	0
Diffusion-based Generative Modeling with Discriminative Guidance for Streamable Speech Enhancement	Jun 19, 2024	Speech Enhancement	—Unverified	0
Universal Score-based Speech Enhancement with High Content Preservation	Jun 18, 2024	Speech Enhancement	CodeCode Available	2
Spatially constrained vs. unconstrained filtering in neural spatiospectral filters for multichannel speech enhancement	Jun 17, 2024	Speech Enhancement	—Unverified	0
An Exploration of Length Generalization in Transformer-Based Speech Enhancement	Jun 17, 2024	PositionSpeech Enhancement	—Unverified	0
AV-CrossNet: an Audiovisual Complex Spectral Mapping Network for Speech Separation By Leveraging Narrow- and Cross-Band Modeling	Jun 17, 2024	Speaker SeparationSpeech Enhancement	CodeCode Available	1
Personalized Speech Enhancement Without a Separate Speaker Embedding Model	Jun 14, 2024	Speech Enhancement	—Unverified	0
FlowAVSE: Efficient Audio-Visual Speech Enhancement with Conditional Flow Matching	Jun 13, 2024	Speech Enhancement	—Unverified	0
Comparative Analysis of Personalized Voice Activity Detection Systems: Assessing Real-World Effectiveness	Jun 12, 2024	Action DetectionActivity Detection	—Unverified	0
Pre-training Feature Guided Diffusion Model for Speech Enhancement	Jun 11, 2024	Speech Enhancement	—Unverified	0
The Effect of Training Dataset Size on Discriminative and Diffusion-Based Speech Enhancement Systems	Jun 10, 2024	DiversityImage Generation	—Unverified	0
EARS: An Anechoic Fullband Speech Dataset Benchmarked for Speech Enhancement and Dereverberation	Jun 10, 2024	Speech Enhancement	CodeCode Available	3
Thunder : Unified Regression-Diffusion Speech Enhancement with a Single Reverse Step using Brownian Bridge	Jun 10, 2024	regressionSpeech Enhancement	—Unverified	0
An Investigation of Noise Robustness for Flow-Matching-Based Zero-Shot TTS	Jun 9, 2024	DenoisingSpeech Denoising	—Unverified	0
URGENT Challenge: Universality, Robustness, and Generalizability For Speech Enhancement	Jun 7, 2024	Bandwidth ExtensionDenoising	—Unverified	0
Flexible Multichannel Speech Enhancement for Noise-Robust Frontend	Jun 6, 2024	Automatic Speech RecognitionAutomatic Speech Recognition (ASR)	—Unverified	0
Helsinki Speech Challenge 2024	Jun 6, 2024	Speech Enhancementspeech-recognition	—Unverified	0
Beyond Performance Plateaus: A Comprehensive Study on Scalability in Speech Enhancement	Jun 6, 2024	DiversitySpeech Enhancement	CodeCode Available	1
PLDNet: PLD-Guided Lightweight Deep Network Boosted by Efficient Attention for Handheld Dual-Microphone Speech Enhancement	Jun 6, 2024	Speech Enhancement	—Unverified	0
Once more Diarization: Improving meeting transcription systems through segment-level speaker reassignment	Jun 5, 2024	AttributeSpeech Enhancement	CodeCode Available	1
Reference Channel Selection by Multi-Channel Masking for End-to-End Multi-Channel Speech Enhancement	Jun 5, 2024	channel selectionSpeech Enhancement	—Unverified	0
The PESQetarian: On the Relevance of Goodhart's Law for Speech Enhancement	Jun 5, 2024	Speech Enhancement	—Unverified	0
Speech enhancement deep-learning architecture for efficient edge processing	May 27, 2024	Deep LearningGenerative Adversarial Network	—Unverified	0
A Variance-Preserving Interpolation Approach for Diffusion Models with Applications to Single Channel Speech Enhancement and Recognition	May 27, 2024	Automatic Speech RecognitionAutomatic Speech Recognition (ASR)	CodeCode Available	1
Non-autoregressive real-time Accent Conversion model with voice cloning	May 21, 2024	Speech Enhancementspeech-recognition	—Unverified	0
Mamba in Speech: Towards an Alternative to Self-Attention	May 21, 2024	MambaSpeech Enhancement	CodeCode Available	2
Monaural speech enhancement on drone via Adapter based transfer learning	May 16, 2024	Speech EnhancementTransfer Learning	—Unverified	0
Building a Luganda Text-to-Speech Model From Crowdsourced Data	May 16, 2024	Speech Enhancementtext-to-speech	—Unverified	0
Evaluating Speech Enhancement Systems Through Listening Effort	May 13, 2024	Speech Enhancement	—Unverified	0
An Investigation of Incorporating Mamba for Speech Enhancement	May 10, 2024	MambaSpeech Enhancement	CodeCode Available	3
Real-time multichannel deep speech enhancement in hearing aids: Comparing monaural and binaural processing in complex acoustic scenarios	May 3, 2024	Deep LearningSpeech Enhancement	—Unverified	0
TRAMBA: A Hybrid Transformer and Mamba Architecture for Practical Audio and Bone Conduction Speech Super Resolution and Enhancement on Mobile and Wearable Platforms	May 2, 2024	MambaSpeech Enhancement	—Unverified	0
Deep low-latency joint speech transmission and enhancement over a gaussian channel	Apr 30, 2024	DecoderSpeech Enhancement	—Unverified	0
Rethinking Processing Distortions: Disentangling the Impact of Speech Enhancement Errors on Speech Recognition Performance	Apr 23, 2024	Automatic Speech RecognitionAutomatic Speech Recognition (ASR)	—Unverified	0
Exploring the Potential of Data-Driven Spatial Audio Enhancement Using a Single-Channel Model	Apr 22, 2024	Direction of Arrival EstimationSpeech Enhancement	—Unverified	0
TRNet: Two-level Refinement Network leveraging Speech Enhancement for Noise Robust Speech Emotion Recognition	Apr 19, 2024	Emotion RecognitionSpeech Emotion Recognition	—Unverified	0
FSPEN: AN ULTRA-LIGHTWEIGHT NETWORK FOR REAL TIME SPEECH ENAHNCMENT	Apr 15, 2024	Speech Enhancement	CodeCode Available	2
Efficient High-Performance Bark-Scale Neural Network for Residual Echo and Noise Suppression	Apr 8, 2024	Speech Enhancement	—Unverified	0
Artificial Intelligence for Cochlear Implants: Review of Strategies, Challenges, and Perspectives	Mar 17, 2024	Automatic Speech RecognitionAutomatic Speech Recognition (ASR)	—Unverified	0
SuperM2M: Supervised and Mixture-to-Mixture Co-Learning for Speech Enhancement and Noise-Robust ASR	Mar 15, 2024	Speaker SeparationSpeech Enhancement	—Unverified	0
How to train your ears: Auditory-model emulation for large-dynamic-range inputs and mild-to-severe hearing losses	Mar 15, 2024	Speech Enhancement	CodeCode Available	0
Binaural Speech Enhancement Using Deep Complex Convolutional Transformer Networks	Mar 8, 2024	DecoderSpeech Enhancement	CodeCode Available	1
A Closer Look at Wav2Vec2 Embeddings for On-Device Single-Channel Speech Enhancement	Mar 3, 2024	Automatic Speech RecognitionKeyword Spotting	—Unverified	0

Show:10 25 50

← PrevPage 4 of 20Next →

All datasets VoiceBank + DEMAND Deep Noise Suppression (DNS) Challenge CHiME-3 EARS-WHAM EasyCom DNS Challenge VB-DemandEx WHAMR!WSJ0 + DEMAND + RNNoise RealMAN VoiceBank+DEMAND DEMAND

Benchmark Results

#	Model	Metric	Claimed	Verified	Status
1	ROSE-CD(PESQ)	PESQ (wb)	3.99	—	Unverified
2	PESQetarian	PESQ (wb)	3.82	—	Unverified
3	Mamba-SEUNet L (+PCS)	PESQ (wb)	3.73	—	Unverified
4	Schrödinger bridge (PESQ loss)	PESQ (wb)	3.7	—	Unverified
5	SEMamba (+PCS)	PESQ (wb)	3.69	—	Unverified
6	ZipEnhancer (S, \lamba_6 = 0)	PESQ (wb)	3.63	—	Unverified
7	PrimeK-Net	PESQ (wb)	3.61	—	Unverified
8	ZipEnhancer (S, \lamba_6 = 0.2)	PESQ (wb)	3.61	—	Unverified
9	MP-SENet	PESQ (wb)	3.6	—	Unverified
10	PCS_CS_WAVLM	PESQ (wb)	3.54	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	BSRNN-S + MGD	SI-SDR-WB	21.4	—	Unverified
2	DTLN	SI-SDR-WB	16.34	—	Unverified
3	Non-Real-Time MultiScale+	SI-SDR-WB	16.22	—	Unverified
4	ZipEnhancer (M)	PESQ-WB	3.81	—	Unverified
5	TF-Locoformer (M)	PESQ-WB	3.72	—	Unverified
6	ZipEnhancer (S)	PESQ-WB	3.69	—	Unverified
7	MambAttention	PESQ-WB	3.67	—	Unverified
8	MP-SENet	PESQ-WB	3.62	—	Unverified
9	xLSTM-SENet	PESQ-WB	3.59	—	Unverified
10	BSRNN-S + MRSD	PESQ-WB	3.53	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	Inter-Channel Conv-TasNet	SDR	19.67	—	Unverified
2	CA Dense U-Net (Complex)	SDR	18.64	—	Unverified
3	Dense U-Net (Complex)	SDR	18.4	—	Unverified
4	Dense U-Net (Real)	SDR	16.86	—	Unverified
5	U-Net (Real)	SDR	15.97	—	Unverified
6	Noisy/unprocessed	SDR	6.5	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	Schrödinger Bridge (PESQ loss)	PESQ-WB	3.09	—	Unverified
2	SGMSE+	PESQ-WB	2.5	—	Unverified
3	Demucs v4	PESQ-WB	2.37	—	Unverified
4	Schrödinger Bridge	PESQ-WB	2.33	—	Unverified
5	Conv-TasNet	PESQ-WB	2.31	—	Unverified
6	CDiffuSE	PESQ-WB	1.6	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	ReVISE (ch2)	Audio Quality MOS	4.19	—	Unverified
2	ReVISE (bf)	Audio Quality MOS	4.11	—	Unverified
3	Demucs (ch2)	Audio Quality MOS	2.95	—	Unverified
4	Demucs (bf)	Audio Quality MOS	2.39	—	Unverified
5	MaxDI (Baseline)	PESQ	1.17	—	Unverified
6	DAJA (MVDR,HMA,1000) (Overlapped Speech)	SDR	-4.76	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	ZipEnhancer (M)	PESQ-NB	4.08	—	Unverified
2	DCCRN-MC	PESQ-NB	3.21	—	Unverified
3	DCCRN-M	PESQ-NB	3.15	—	Unverified
4	DCCRN	PESQ-NB	3.04	—	Unverified
5	RNN-Modulation	PESQ-WB	2.75	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	MambAttention	ESTOI	0.8	—	Unverified
2	SEMamba	ESTOI	0.8	—	Unverified
3	xLSTM-SENet	ESTOI	0.8	—	Unverified
4	MP-SENet	ESTOI	0.79	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	SepFormer	PESQ	2.84	—	Unverified
2	DTLN	PESQ	2.23	—	Unverified
3	Unprocessed	PESQ	1.83	—	Unverified
4	Non-Real-Time MultiScale+	PESQ	1.52	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	DCUNet-MC	PESQ-NB	3.44	—	Unverified
2	DCCRN-M	PESQ-NB	3.28	—	Unverified
3	DCUNet	PESQ-NB	3.25	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	CleanMel-L-map	DNSMOS	3.82	—	Unverified
2	SpatialNet	DNSMOS BAK	3.43	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	rose_cd(PESQ )	PESQ	3.99	—	Unverified
2	ROSE-CD	PESQ	3.49	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	Wave-U-Net	CBAK	3.24	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	Audio-Visual concat-ref	PESQ	2.7	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	SE-MelGAN	Audio Quality MOS	3.1	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	DeFT-AN	PESQ	3.01	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	Audio-Visual concat-ref	PESQ	3.03	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	SepFormer	PESQ	3.07	—	Unverified