Speech Recognition

Speech Recognition is the task of converting spoken language into text. It involves recognizing the words spoken in an audio recording and transcribing them into a written format. The goal is to accurately transcribe the speech in real-time or from recorded audio, taking into account factors such as accents, speaking speed, and background noise.

( Image credit: SpecAugment )

Papers

Recently Added Most Hyped Most Active Needs Verification Most Verified

Showing 3451–3500 of 6433 papers

Title	Date	Tasks	Status
Overcoming Domain Mismatch in Low Resource Sequence-to-Sequence ASR Models using Hybrid Generated Pseudotranscripts	Jun 14, 2021	Automatic Speech RecognitionAutomatic Speech Recognition (ASR)	—Unverified
Cross-utterance Reranking Models with BERT and Graph Convolutional Networks for Conversational Speech Recognition	Jun 13, 2021	Automatic Speech RecognitionAutomatic Speech Recognition (ASR)	—Unverified
Improving RNN-T ASR Performance with Date-Time and Location Awareness	Jun 11, 2021	Automatic Speech RecognitionAutomatic Speech Recognition (ASR)	—Unverified
Leveraging Pre-trained Language Model for Speech Sentiment Analysis	Jun 11, 2021	Automatic Speech RecognitionAutomatic Speech Recognition (ASR)	—Unverified
TASK AWARE MULTI-TASK LEARNING FOR SPEECH TO TEXT TASKS	Jun 10, 2021	Automatic Speech RecognitionAutomatic Speech Recognition (ASR)	—Unverified
PARP: Prune, Adjust and Re-Prune for Self-Supervised Speech Recognition	Jun 10, 2021	Automatic Speech RecognitionAutomatic Speech Recognition (ASR)	—Unverified
Balanced End-to-End Monolingual pre-training for Low-Resourced Indic Languages Code-Switching Speech Recognition	Jun 10, 2021	Language Modellingspeech-recognition	—Unverified
U2++: Unified Two-pass Bidirectional End-to-end Model for Speech Recognition	Jun 10, 2021	Data Augmentationspeech-recognition	—Unverified
A Comparative Study on Neural Architectures and Training Methods for Japanese Speech Recognition	Jun 9, 2021	Automatic Speech RecognitionAutomatic Speech Recognition (ASR)	—Unverified
Unsupervised Automatic Speech Recognition: A Review	Jun 9, 2021	Automatic Speech RecognitionAutomatic Speech Recognition (ASR)	—Unverified
Raw Waveform Encoder with Multi-Scale Globally Attentive Locally Recurrent Networks for End-to-End Speech Recognition	Jun 8, 2021	speech-recognitionSpeech Recognition	—Unverified
Sequential End-to-End Intent and Slot Label Classification and Localization	Jun 8, 2021	Automatic Speech RecognitionAutomatic Speech Recognition (ASR)	—Unverified
Muddling Label Regularization: Deep Learning for Tabular Datasets	Jun 8, 2021	Deep LearningMemorization	CodeCode Available
Data Augmentation Methods for End-to-end Speech Recognition on Distant-Talk Scenarios	Jun 7, 2021	Automatic Speech RecognitionAutomatic Speech Recognition (ASR)	—Unverified
Human Listening and Live Captioning: Multi-Task Training for Speech Enhancement	Jun 5, 2021	Automatic Speech RecognitionAutomatic Speech Recognition (ASR)	—Unverified
Minimum Word Error Rate Training with Language Model Fusion for End-to-End Speech Recognition	Jun 4, 2021	Language ModelingLanguage Modelling	—Unverified
Do You Listen with One or Two Microphones? A Unified ASR Model for Single and Multi-Channel Audio	Jun 4, 2021	Automatic Speech RecognitionAutomatic Speech Recognition (ASR)	—Unverified
Semantic-WER: A Unified Metric for the Evaluation of ASR Transcript for End Usability	Jun 3, 2021	Automatic Speech RecognitionAutomatic Speech Recognition (ASR)	—Unverified
A Discussion On the Validity of Manifold Learning	Jun 3, 2021	Dimensionality Reductionspeech-recognition	—Unverified
Improving low-resource ASR performance with untranscribed out-of-domain data	Jun 2, 2021	Automatic Speech RecognitionAutomatic Speech Recognition (ASR)	—Unverified
Dual Script E2E framework for Multilingual and Code-Switching ASR	Jun 2, 2021	Automatic Speech RecognitionAutomatic Speech Recognition (ASR)	—Unverified
Should We Always Separate?: Switching Between Enhanced and Observed Signals for Overlapping Speech Recognition	Jun 2, 2021	Automatic Speech RecognitionAutomatic Speech Recognition (ASR)	—Unverified
Evaluating Automatic Speech Recognition Quality and Its Impact on Counselor Utterance Coding	Jun 1, 2021	Automatic Speech RecognitionAutomatic Speech Recognition (ASR)	—Unverified
End-to-end ASR to jointly predict transcriptions and linguistic annotations	Jun 1, 2021	Automatic Speech RecognitionAutomatic Speech Recognition (ASR)	—Unverified
End-to-End Automatic Speech Recognition: Its Impact on the Workflowin Documenting Yoloxóchitl Mixtec	Jun 1, 2021	Automatic Speech RecognitionAutomatic Speech Recognition (ASR)	—Unverified
Multilingual Speech Translation with Unified Transformer: Huawei Noah's Ark Lab at IWSLT 2021	Jun 1, 2021	Data AugmentationDecoder	—Unverified
Highland Puebla Nahuatl Speech Translation Corpus for Endangered Language Documentation	Jun 1, 2021	Automatic Speech RecognitionAutomatic Speech Recognition (ASR)	—Unverified
A Neural Acoustic Echo Canceller Optimized Using An Automatic Speech Recognizer And Large Scale Synthetic Data	Jun 1, 2021	Acoustic echo cancellationAutomatic Speech Recognition	—Unverified
Developing ASR for Indonesian-English Bilingual Language Teaching	Jun 1, 2021	Automatic Speech RecognitionAutomatic Speech Recognition (ASR)	—Unverified
2020福爾摩沙臺語語音辨識比賽之初步實驗 (A Preliminary Study of Formosa Speech Recognition Challenge 2020 – Taiwanese ASR)	Jun 1, 2021	speech-recognitionSpeech Recognition	—Unverified
Language ID Prediction from Speech Using Self-Attentive Pooling	Jun 1, 2021	Language Identificationspeech-recognition	—Unverified
NSYSU-MITLab團隊於福爾摩沙語音辨識競賽2020之語音辨識系統 (NSYSU-MITLab Speech Recognition System for Formosa Speech Recognition Challenge 2020)	Jun 1, 2021	speech-recognitionSpeech Recognition	—Unverified
Low-Resource Spoken Language Identification Using Self-Attentive Pooling and Deep 1D Time-Channel Separable Convolutions	May 31, 2021	Language Identificationspeech-recognition	—Unverified
Fine-grained Generalization Analysis of Structured Output Prediction	May 31, 2021	Generalization BoundsPrediction	—Unverified
Towards One Model to Rule All: Multilingual Strategy for Dialectal Code-Switching Arabic ASR	May 31, 2021	AllAutomatic Speech Recognition	—Unverified
Bangla Natural Language Processing: A Comprehensive Analysis of Classical, Machine Learning, and Deep Learning Based Methods	May 31, 2021	ArticlesBIG-bench Machine Learning	—Unverified
Quantization and Deployment of Deep Neural Networks on Microcontrollers	May 27, 2021	Activity RecognitionHuman Activity Recognition	CodeCode Available
Multitask Learning for Grapheme-to-Phoneme Conversion of Anglicisms in German Speech Recognition	May 26, 2021	Grapheme-to-Phoneme Conversionspeech-recognition	—Unverified
Training Speech Enhancement Systems with Noisy Speech Datasets	May 26, 2021	Automatic Speech RecognitionAutomatic Speech Recognition (ASR)	—Unverified
Unsupervised Speech Recognition	May 24, 2021	speech-recognitionSpeech Recognition	—Unverified
Mondegreen: A Post-Processing Solution to Speech Recognition Error Correction for Voice Search Queries	May 20, 2021	Automatic Speech RecognitionAutomatic Speech Recognition (ASR)	—Unverified
A Streaming End-to-End Framework For Spoken Language Understanding	May 20, 2021	Intent DetectionKeyword Spotting	—Unverified
Exploiting Adapters for Cross-lingual Low-resource Speech Recognition	May 18, 2021	Cross-Lingual ASRGeneral Knowledge	CodeCode Available
LiSTra, Automatic Speech Translation: English to Lingala case study	May 16, 2021	Automatic Speech RecognitionAutomatic Speech Recognition (ASR)	—Unverified
Hardware Synthesis of State-Space Equations; Application to FPGA Implementation of Shallow and Deep Neural Networks	May 15, 2021	speech-recognitionSpeech Recognition	CodeCode Available
Streaming Transformer for Hardware Efficient Voice Trigger Detection and False Trigger Mitigation	May 14, 2021	Automatic Speech RecognitionAutomatic Speech Recognition (ASR)	—Unverified
Listen with Intent: Improving Speech Recognition with Audio-to-Intent Front-End	May 14, 2021	Automatic Speech RecognitionAutomatic Speech Recognition (ASR)	—Unverified
Exploring CTC Based End-to-End Techniques for Myanmar Speech Recognition	May 13, 2021	Automatic Speech RecognitionAutomatic Speech Recognition (ASR)	—Unverified
Attention-based Neural Beamforming Layers for Multi-channel Speech Recognition	May 12, 2021	speech-recognitionSpeech Recognition	—Unverified
StutterNet: Stuttering Detection Using Time Delay Neural Network	May 12, 2021	Automatic Speech RecognitionAutomatic Speech Recognition (ASR)	—Unverified

Show:10 25 50

← PrevPage 70 of 129Next →

All datasets LibriSpeech test-clean LibriSpeech test-other Switchboard + Hub500 TIMIT AISHELL-1 WSJ eval92 Common Voice German swb_hub_500 WER fullSWBCH TUDA Common Voice French Common Voice Spanish MediaSpeech

Benchmark Results

#	Model	Metric	Claimed	Verified	Status
1	AmNet	Word Error Rate (WER)	8.6	—	Unverified
2	HMM-(SAT)GMM	Word Error Rate (WER)	8	—	Unverified
3	Local Prior Matching (Large Model)	Word Error Rate (WER)	7.19	—	Unverified
4	Snips	Word Error Rate (WER)	6.4	—	Unverified
5	Li-GRU	Word Error Rate (WER)	6.2	—	Unverified
6	HMM-DNN + pNorm*	Word Error Rate (WER)	5.5	—	Unverified
7	CTC + policy learning	Word Error Rate (WER)	5.42	—	Unverified
8	Deep Speech 2	Word Error Rate (WER)	5.33	—	Unverified
9	HMM-TDNN + iVectors	Word Error Rate (WER)	4.8	—	Unverified
10	Gated ConvNets	Word Error Rate (WER)	4.8	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	Local Prior Matching (Large Model)	Word Error Rate (WER)	20.84	—	Unverified
2	Snips	Word Error Rate (WER)	16.5	—	Unverified
3	Local Prior Matching (Large Model, ConvLM LM)	Word Error Rate (WER)	15.28	—	Unverified
4	Deep Speech 2	Word Error Rate (WER)	13.25	—	Unverified
5	TDNN + pNorm + speed up/down speech	Word Error Rate (WER)	12.5	—	Unverified
6	CTC-CRF 4gram-LM	Word Error Rate (WER)	10.65	—	Unverified
7	Convolutional Speech Recognition	Word Error Rate (WER)	10.47	—	Unverified
8	MT4SSL	Word Error Rate (WER)	9.6	—	Unverified
9	Jasper DR 10x5	Word Error Rate (WER)	8.79	—	Unverified
10	Espresso	Word Error Rate (WER)	8.7	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	Deep Speech	Percentage error	20	—	Unverified
2	DNN-HMM	Percentage error	18.5	—	Unverified
3	CD-DNN	Percentage error	16.1	—	Unverified
4	DNN	Percentage error	16	—	Unverified
5	DNN + Dropout	Percentage error	15	—	Unverified
6	DNN BMMI	Percentage error	12.9	—	Unverified
7	DNN MPE	Percentage error	12.9	—	Unverified
8	DNN MMI	Percentage error	12.9	—	Unverified
9	HMM-TDNN + pNorm + speed up/down speech	Percentage error	12.9	—	Unverified
10	HMM-DNN +sMBR	Percentage error	12.6	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	LSNN	Percentage error	33.2	—	Unverified
2	LAS multitask with indicators sampling	Percentage error	20.4	—	Unverified
3	Soft Monotonic Attention (ours, offline)	Percentage error	20.1	—	Unverified
4	QCNN-10L-256FM	Percentage error	19.64	—	Unverified
5	Bi-LSTM + skip connections w/ CTC	Percentage error	17.7	—	Unverified
6	Bi-RNN + Attention	Percentage error	17.6	—	Unverified
7	RNN-CRF on 24(x3) MFSC	Percentage error	17.3	—	Unverified
8	CNN in time and frequency + dropout, 17.6% w/o dropout	Percentage error	16.7	—	Unverified
9	Light Gated Recurrent Units	Percentage error	16.7	—	Unverified
10	GRU	Percentage error	16.6	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	Att	Word Error Rate (WER)	18.7	—	Unverified
2	CTC/Att	Word Error Rate (WER)	6.7	—	Unverified
3	BRA-E	Word Error Rate (WER)	6.63	—	Unverified
4	CTC-CRF 4gram-LM	Word Error Rate (WER)	6.34	—	Unverified
5	BAT	Word Error Rate (WER)	4.97	—	Unverified
6	Paraformer	Word Error Rate (WER)	4.95	—	Unverified
7	U2	Word Error Rate (WER)	4.72	—	Unverified
8	UMA	Word Error Rate (WER)	4.7	—	Unverified
9	Lightweight Transducer	Word Error Rate (WER)	4.31	—	Unverified
10	CIF-HKD With LM	Word Error Rate (WER)	4.1	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	Jasper 10x3	Word Error Rate (WER)	6.9	—	Unverified
2	CNN over RAW speech (wav)	Word Error Rate (WER)	5.6	—	Unverified
3	CTC-CRF 4gram-LM	Word Error Rate (WER)	3.79	—	Unverified
4	Deep Speech 2	Word Error Rate (WER)	3.6	—	Unverified
5	test-set on open vocabulary (i.e. harder), model = HMM-DNN + pNorm*	Word Error Rate (WER)	3.6	—	Unverified
6	Convolutional Speech Recognition	Word Error Rate (WER)	3.5	—	Unverified
7	TC-DNN-BLSTM-DNN	Word Error Rate (WER)	3.5	—	Unverified
8	Espresso	Word Error Rate (WER)	3.4	—	Unverified
9	CTC-CRF VGG-BLSTM	Word Error Rate (WER)	3.2	—	Unverified
10	Transformer with Relaxed Attention	Word Error Rate (WER)	3.19	—	Unverified