Speech Recognition

Speech Recognition is the task of converting spoken language into text. It involves recognizing the words spoken in an audio recording and transcribing them into a written format. The goal is to accurately transcribe the speech in real-time or from recorded audio, taking into account factors such as accents, speaking speed, and background noise.

( Image credit: SpecAugment )

Papers

Recently Added Most Hyped Most Active Needs Verification Most Verified

Showing 2701–2750 of 6433 papers

Title	Date	Tasks	Status	Hype
ASR-Aware End-to-end Neural Diarization	Feb 2, 2022	Automatic Speech RecognitionAutomatic Speech Recognition (ASR)	—Unverified	0
Error Correction in ASR using Sequence-to-Sequence Models	Feb 2, 2022	Automatic Speech RecognitionAutomatic Speech Recognition (ASR)	—Unverified	0
RescoreBERT: Discriminative Speech Recognition Rescoring with BERT	Feb 2, 2022	Automatic Speech RecognitionAutomatic Speech Recognition (ASR)	—Unverified	0
BEA-Base: A Benchmark for ASR of Spontaneous Hungarian	Feb 1, 2022	Automatic Speech RecognitionAutomatic Speech Recognition (ASR)	—Unverified	0
Language Dependencies in Adversarial Attacks on Speech Recognition Systems	Feb 1, 2022	Automatic Speech RecognitionAutomatic Speech Recognition (ASR)	—Unverified	0
XLSR53 Wav2Vec2 Portuguese by Orlem Santos	Feb 1, 2022	Speech Recognition	CodeCode Available	0
Visualizing Automatic Speech Recognition -- Means for a Better Understanding?	Feb 1, 2022	Automatic Speech RecognitionAutomatic Speech Recognition (ASR)	—Unverified	0
NAS-Bench-Suite: NAS Evaluation is (Now) Surprisingly Easy	Jan 31, 2022	AutoMLimage-classification	—Unverified	0
Improving End-to-End Contextual Speech Recognition with Fine-Grained Contextual Knowledge Selection	Jan 30, 2022	speech-recognitionSpeech Recognition	CodeCode Available	1
Reducing language context confusion for end-to-end code-switching automatic speech recognition	Jan 28, 2022	Automatic Speech RecognitionAutomatic Speech Recognition (ASR)	—Unverified	0
Star Temporal Classification: Sequence Classification with Partially Labeled Data	Jan 28, 2022	Automatic Speech RecognitionAutomatic Speech Recognition (ASR)	CodeCode Available	0
Neural-FST Class Language Model for End-to-End Speech Recognition	Jan 28, 2022	Language ModelingLanguage Modelling	—Unverified	0
Improving End-to-End Models for Set Prediction in Spoken Language Understanding	Jan 28, 2022	Data AugmentationDecoder	—Unverified	0
Synthesizing Dysarthric Speech Using Multi-talker TTS for Dysarthric Speech Recognition	Jan 27, 2022	Automatic Speech RecognitionAutomatic Speech Recognition (ASR)	—Unverified	0
Sentiment-Aware Automatic Speech Recognition pre-training for enhanced Speech Emotion Recognition	Jan 27, 2022	Automatic Speech RecognitionAutomatic Speech Recognition (ASR)	—Unverified	0
Discovering Phonetic Inventories with Crosslingual Automatic Speech Recognition	Jan 26, 2022	Automatic Speech RecognitionAutomatic Speech Recognition (ASR)	CodeCode Available	0
On the Effectiveness of Pinyin-Character Dual-Decoding for End-to-End Mandarin Chinese ASR	Jan 26, 2022	Automatic Speech RecognitionAutomatic Speech Recognition (ASR)	—Unverified	0
Internal Language Model Estimation Through Explicit Context Vector Learning for Attention-based Encoder-decoder ASR	Jan 26, 2022	DecoderLanguage Modeling	—Unverified	0
The Norwegian Parliamentary Speech Corpus	Jan 26, 2022	Automatic Speech RecognitionAutomatic Speech Recognition (ASR)	—Unverified	0
Improving non-autoregressive end-to-end speech recognition with pre-trained acoustic and language models	Jan 25, 2022	Automatic Speech RecognitionAutomatic Speech Recognition (ASR)	—Unverified	0
Run-and-back stitch search: novel block synchronous decoding for streaming encoder-decoder ASR	Jan 25, 2022	Automatic Speech RecognitionAutomatic Speech Recognition (ASR)	—Unverified	0
Transformer-Based Video Front-Ends for Audio-Visual Speech Recognition for Single and Multi-Person Video	Jan 25, 2022	Audio-Visual Speech RecognitionAutomatic Speech Recognition	—Unverified	0
Improving the fusion of acoustic and text representations in RNN-T	Jan 25, 2022	Automatic Speech RecognitionAutomatic Speech Recognition (ASR)	—Unverified	0
Endpoint Detection for Streaming End-to-End Multi-talker ASR	Jan 24, 2022	Sentencespeech-recognition	—Unverified	0
Investigation of Deep Neural Network Acoustic Modelling Approaches for Low Resource Accented Mandarin Speech Recognition	Jan 24, 2022	Acoustic Modellingspeech-recognition	—Unverified	0
Data and knowledge-driven approaches for multilingual training to improve the performance of speech recognition systems of Indian languages	Jan 24, 2022	speech-recognitionSpeech Recognition	—Unverified	0
Variational Auto-Encoder Based Variability Encoding for Dysarthric Speech Recognition	Jan 24, 2022	speech-recognitionSpeech Recognition	—Unverified	0
PickNet: Real-Time Channel Selection for Ad Hoc Microphone Arrays	Jan 24, 2022	channel selectionspeech-recognition	—Unverified	0
Enabling Deep Learning on Edge Devices through Filter Pruning and Knowledge Transfer	Jan 22, 2022	image-classificationImage Classification	—Unverified	0
A Noise-Robust Self-supervised Pre-training Model Based Speech Representation Learning for Automatic Speech Recognition	Jan 22, 2022	Automatic Speech RecognitionAutomatic Speech Recognition (ASR)	—Unverified	0
Human and Automatic Speech Recognition Performance on German Oral History Interviews	Jan 18, 2022	Automatic Speech RecognitionAutomatic Speech Recognition (ASR)	—Unverified	0
How Bad Are Artifacts?: Analyzing the Impact of Speech Enhancement Errors on ASR	Jan 18, 2022	Automatic Speech RecognitionAutomatic Speech Recognition (ASR)	—Unverified	0
DUAL: Textless Spoken Question Answering with Speech Discrete Unit Adaptive Learning	Jan 16, 2022	Automatic Speech RecognitionAutomatic Speech Recognition (ASR)	—Unverified	0
RED-ACE: Robust Error Detection for ASR using Confidence Embeddings	Jan 16, 2022	Automatic Speech RecognitionAutomatic Speech Recognition (ASR)	—Unverified	0
Recent Progress in the CUHK Dysarthric Speech Recognition System	Jan 15, 2022	Audio-Visual Speech RecognitionAutomatic Speech Recognition	—Unverified	0
Investigation of Data Augmentation Techniques for Disordered Speech Recognition	Jan 14, 2022	Data Augmentationspeech-recognition	—Unverified	0
Spectro-Temporal Deep Features for Disordered Speech Assessment and Recognition	Jan 14, 2022	Data Augmentationspeech-recognition	—Unverified	0
The Effectiveness of Time Stretching for Enhancing Dysarthric Speech for Improved Dysarthric Speech Recognition	Jan 13, 2022	Generative Adversarial NetworkPhoneme Recognition	—Unverified	0
Learning to Enhance or Not: Neural Network-Based Switching of Enhanced and Observed Signals for Overlapping Speech Recognition	Jan 11, 2022	Automatic Speech RecognitionAutomatic Speech Recognition (ASR)	—Unverified	0
CI-AVSR: A Cantonese Audio-Visual Speech Dataset for In-car Command Recognition	Jan 11, 2022	Audio-Visual Speech Recognitionspeech-recognition	CodeCode Available	1
A Likelihood Ratio based Domain Adaptation Method for E2E Models	Jan 10, 2022	Automatic Speech RecognitionAutomatic Speech Recognition (ASR)	—Unverified	0
Cross-Modal ASR Post-Processing System for Error Correction and Utterance Rejection	Jan 10, 2022	Automatic Speech RecognitionAutomatic Speech Recognition (ASR)	—Unverified	0
Neural Architecture Search For LF-MMI Trained Time Delay Neural Networks	Jan 8, 2022	Automatic Speech RecognitionAutomatic Speech Recognition (ASR)	CodeCode Available	0
Two-Pass End-to-End ASR Model Compression	Jan 8, 2022	DecoderKnowledge Distillation	—Unverified	0
Automatic Speech Recognition Datasets in Cantonese: A Survey and New Dataset	Jan 7, 2022	Automatic Speech RecognitionAutomatic Speech Recognition (ASR)	—Unverified	0
Textual Data Augmentation for Arabic-English Code-Switching Speech Recognition	Jan 7, 2022	Data AugmentationLanguage Modeling	—Unverified	0
Improving Mandarin End-to-End Speech Recognition with Word N-gram Language Model	Jan 6, 2022	Automatic Speech RecognitionAutomatic Speech Recognition (ASR)	CodeCode Available	1
Learning Audio-Visual Speech Representation by Masked Multimodal Cluster Prediction	Jan 5, 2022	Automatic Speech RecognitionAutomatic Speech Recognition (ASR)	CodeCode Available	2
Robust Self-Supervised Audio-Visual Speech Recognition	Jan 5, 2022	Audio-Visual Speech RecognitionAutomatic Speech Recognition	CodeCode Available	2
Speech-to-SQL: Towards Speech-driven SQL Query Generation From Natural Language Question	Jan 4, 2022	Automatic Speech RecognitionAutomatic Speech Recognition (ASR)	—Unverified	0

Show:10 25 50

← PrevPage 55 of 129Next →

All datasets LibriSpeech test-clean LibriSpeech test-other Switchboard + Hub500 TIMIT AISHELL-1 WSJ eval92 Common Voice German swb_hub_500 WER fullSWBCH TUDA Common Voice French Common Voice Spanish MediaSpeech

Benchmark Results

#	Model	Metric	Claimed	Verified	Status
1	AmNet	Word Error Rate (WER)	8.6	—	Unverified
2	HMM-(SAT)GMM	Word Error Rate (WER)	8	—	Unverified
3	Local Prior Matching (Large Model)	Word Error Rate (WER)	7.19	—	Unverified
4	Snips	Word Error Rate (WER)	6.4	—	Unverified
5	Li-GRU	Word Error Rate (WER)	6.2	—	Unverified
6	HMM-DNN + pNorm*	Word Error Rate (WER)	5.5	—	Unverified
7	CTC + policy learning	Word Error Rate (WER)	5.42	—	Unverified
8	Deep Speech 2	Word Error Rate (WER)	5.33	—	Unverified
9	HMM-TDNN + iVectors	Word Error Rate (WER)	4.8	—	Unverified
10	Gated ConvNets	Word Error Rate (WER)	4.8	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	Local Prior Matching (Large Model)	Word Error Rate (WER)	20.84	—	Unverified
2	Snips	Word Error Rate (WER)	16.5	—	Unverified
3	Local Prior Matching (Large Model, ConvLM LM)	Word Error Rate (WER)	15.28	—	Unverified
4	Deep Speech 2	Word Error Rate (WER)	13.25	—	Unverified
5	TDNN + pNorm + speed up/down speech	Word Error Rate (WER)	12.5	—	Unverified
6	CTC-CRF 4gram-LM	Word Error Rate (WER)	10.65	—	Unverified
7	Convolutional Speech Recognition	Word Error Rate (WER)	10.47	—	Unverified
8	MT4SSL	Word Error Rate (WER)	9.6	—	Unverified
9	Jasper DR 10x5	Word Error Rate (WER)	8.79	—	Unverified
10	Espresso	Word Error Rate (WER)	8.7	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	Deep Speech	Percentage error	20	—	Unverified
2	DNN-HMM	Percentage error	18.5	—	Unverified
3	CD-DNN	Percentage error	16.1	—	Unverified
4	DNN	Percentage error	16	—	Unverified
5	DNN + Dropout	Percentage error	15	—	Unverified
6	DNN BMMI	Percentage error	12.9	—	Unverified
7	DNN MPE	Percentage error	12.9	—	Unverified
8	DNN MMI	Percentage error	12.9	—	Unverified
9	HMM-TDNN + pNorm + speed up/down speech	Percentage error	12.9	—	Unverified
10	HMM-DNN +sMBR	Percentage error	12.6	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	LSNN	Percentage error	33.2	—	Unverified
2	LAS multitask with indicators sampling	Percentage error	20.4	—	Unverified
3	Soft Monotonic Attention (ours, offline)	Percentage error	20.1	—	Unverified
4	QCNN-10L-256FM	Percentage error	19.64	—	Unverified
5	Bi-LSTM + skip connections w/ CTC	Percentage error	17.7	—	Unverified
6	Bi-RNN + Attention	Percentage error	17.6	—	Unverified
7	RNN-CRF on 24(x3) MFSC	Percentage error	17.3	—	Unverified
8	CNN in time and frequency + dropout, 17.6% w/o dropout	Percentage error	16.7	—	Unverified
9	Light Gated Recurrent Units	Percentage error	16.7	—	Unverified
10	GRU	Percentage error	16.6	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	Att	Word Error Rate (WER)	18.7	—	Unverified
2	CTC/Att	Word Error Rate (WER)	6.7	—	Unverified
3	BRA-E	Word Error Rate (WER)	6.63	—	Unverified
4	CTC-CRF 4gram-LM	Word Error Rate (WER)	6.34	—	Unverified
5	BAT	Word Error Rate (WER)	4.97	—	Unverified
6	Paraformer	Word Error Rate (WER)	4.95	—	Unverified
7	U2	Word Error Rate (WER)	4.72	—	Unverified
8	UMA	Word Error Rate (WER)	4.7	—	Unverified
9	Lightweight Transducer	Word Error Rate (WER)	4.31	—	Unverified
10	CIF-HKD With LM	Word Error Rate (WER)	4.1	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	Jasper 10x3	Word Error Rate (WER)	6.9	—	Unverified
2	CNN over RAW speech (wav)	Word Error Rate (WER)	5.6	—	Unverified
3	CTC-CRF 4gram-LM	Word Error Rate (WER)	3.79	—	Unverified
4	Deep Speech 2	Word Error Rate (WER)	3.6	—	Unverified
5	test-set on open vocabulary (i.e. harder), model = HMM-DNN + pNorm*	Word Error Rate (WER)	3.6	—	Unverified
6	Convolutional Speech Recognition	Word Error Rate (WER)	3.5	—	Unverified
7	TC-DNN-BLSTM-DNN	Word Error Rate (WER)	3.5	—	Unverified
8	Espresso	Word Error Rate (WER)	3.4	—	Unverified
9	CTC-CRF VGG-BLSTM	Word Error Rate (WER)	3.2	—	Unverified
10	Transformer with Relaxed Attention	Word Error Rate (WER)	3.19	—	Unverified