Speech Recognition

Speech Recognition is the task of converting spoken language into text. It involves recognizing the words spoken in an audio recording and transcribing them into a written format. The goal is to accurately transcribe the speech in real-time or from recorded audio, taking into account factors such as accents, speaking speed, and background noise.

( Image credit: SpecAugment )

Papers

Recently Added Most Hyped Most Active Needs Verification Most Verified

Showing 3401–3450 of 6433 papers

Title	Date	Tasks	Status
Multi-user VoiceFilter-Lite via Attentive Speaker Embedding	Jul 2, 2021	Automatic Speech RecognitionAutomatic Speech Recognition (ASR)	—Unverified
Dual Causal/Non-Causal Self-Attention for Streaming End-to-End Speech Recognition	Jul 2, 2021	Automatic Speech RecognitionAutomatic Speech Recognition (ASR)	—Unverified
Word-Free Spoken Language Understanding for Mandarin-Chinese	Jul 1, 2021	Automatic Speech RecognitionAutomatic Speech Recognition (ASR)	—Unverified
SmarTerp: A CAI System to Support Simultaneous Interpreters in Real-Time	Jul 1, 2021	Automatic Speech RecognitionAutomatic Speech Recognition (ASR)	—Unverified
ESPnet-ST IWSLT 2021 Offline Speech Translation System	Jul 1, 2021	DecoderKnowledge Distillation	—Unverified
StableEmit: Selection Probability Discount for Reducing Emission Latency of Streaming Monotonic Attention ASR	Jul 1, 2021	Automatic Speech RecognitionAutomatic Speech Recognition (ASR)	—Unverified
Pretext Tasks selection for multitask self-supervised speech representation learning	Jul 1, 2021	Automatic Speech RecognitionAutomatic Speech Recognition (ASR)	CodeCode Available
Improving Named Entity Recognition in Spoken Dialog Systems by Context and Speech Pattern Modeling	Jul 1, 2021	Automatic Speech RecognitionAutomatic Speech Recognition (ASR)	—Unverified
Projection of Turn Completion in Incremental Spoken Dialogue Systems	Jul 1, 2021	Language ModelingLanguage Modelling	—Unverified
Interactive decoding of words from visual speech recognition models	Jul 1, 2021	Positionspeech-recognition	—Unverified
On joint training with interfaces for spoken language understanding	Jun 30, 2021	Automatic Speech RecognitionAutomatic Speech Recognition (ASR)	—Unverified
IMS' Systems for the IWSLT 2021 Low-Resource Speech Translation Task	Jun 30, 2021	Automatic Speech RecognitionAutomatic Speech Recognition (ASR)	—Unverified
Sequence-level Confidence Classifier for ASR Utterance Accuracy and Application to Acoustic Models	Jun 30, 2021	Automatic Speech RecognitionAutomatic Speech Recognition (ASR)	—Unverified
Rethinking End-to-End Evaluation of Decomposable Tasks: A Case Study on Spoken Language Understanding	Jun 29, 2021	Automatic Speech RecognitionAutomatic Speech Recognition (ASR)	—Unverified
Use of Machine Learning Technique to maximize the signal over background for H ττ	Jun 27, 2021	BIG-bench Machine LearningPrediction	—Unverified
On a novel training algorithm for sequence-to-sequence predictive recurrent networks	Jun 27, 2021	Machine Translationspeech-recognition	—Unverified
Building Intelligent Autonomous Navigation Agents	Jun 25, 2021	Autonomous NavigationDecision Making	—Unverified
Lexical Access Model for Italian -- Modeling human speech processing: identification of words in running speech toward lexical access based on the detection of landmarks and other acoustic cues to features	Jun 24, 2021	speech-recognitionSpeech Recognition	—Unverified
QASR: QCRI Aljazeera Speech Resource -- A Large Scale Annotated Arabic Speech Corpus	Jun 24, 2021	Automatic Speech RecognitionAutomatic Speech Recognition (ASR)	—Unverified
Where are we in semantic concept extraction for Spoken Language Understanding?	Jun 24, 2021	Automatic Speech RecognitionAutomatic Speech Recognition (ASR)	—Unverified
Mixtures of Deep Neural Experts for Automated Speech Scoring	Jun 23, 2021	Automatic Speech RecognitionAutomatic Speech Recognition (ASR)	—Unverified
Zero-Shot Joint Modeling of Multiple Spoken-Text-Style Conversion Tasks using Switching Tokens	Jun 23, 2021	Automatic Speech RecognitionAutomatic Speech Recognition (ASR)	—Unverified
A Discriminative Entity-Aware Language Model for Virtual Assistants	Jun 21, 2021	Automatic Speech RecognitionAutomatic Speech Recognition (ASR)	—Unverified
How to Reach Real-Time AI on Consumer Devices? Solutions for Programmable and Custom Architectures	Jun 21, 2021	speech-recognitionSpeech Recognition	—Unverified
Pay Better Attention to Attention: Head Selection in Multilingual and Multi-Domain Sequence Modeling	Jun 21, 2021	speech-recognitionSpeech Recognition	—Unverified
Learning From the Master: Distilling Cross-Modal Advanced Knowledge for Lip Reading	Jun 19, 2021	Lip ReadingSentence	—Unverified
Low Resource German ASR with Untranscribed Data Spoken by Non-native Children -- INTERSPEECH 2021 Shared Task SPAPL System	Jun 18, 2021	Acoustic ModellingAutomatic Speech Recognition	—Unverified
An Improved Single Step Non-autoregressive Transformer for Automatic Speech Recognition	Jun 18, 2021	Automatic Speech RecognitionAutomatic Speech Recognition (ASR)	—Unverified
On-Device Personalization of Automatic Speech Recognition Models for Disordered Speech	Jun 18, 2021	Automatic Speech RecognitionAutomatic Speech Recognition (ASR)	—Unverified
Analysis and Tuning of a Voice Assistant System for Dysfluent Speech	Jun 18, 2021	Intent Recognitionspeech-recognition	—Unverified
Multi-mode Transformer Transducer with Stochastic Future Context	Jun 17, 2021	Automatic Speech RecognitionAutomatic Speech Recognition (ASR)	—Unverified
Layer Pruning on Demand with Intermediate CTC	Jun 17, 2021	Automatic Speech RecognitionAutomatic Speech Recognition (ASR)	—Unverified
Semantic sentence similarity: size does not always matter	Jun 16, 2021	Grounded language learningImage Retrieval	—Unverified
Multi-Speaker ASR Combining Non-Autoregressive Conformer CTC and Conditional Speaker Chain	Jun 16, 2021	Automatic Speech RecognitionAutomatic Speech Recognition (ASR)	CodeCode Available
Collaborative Training of Acoustic Encoders for Speech Recognition	Jun 16, 2021	speech-recognitionSpeech Recognition	—Unverified
Best Practices for Noise-Based Augmentation to Improve the Performance of Deployable Speech-Based Emotion Recognition Systems	Jun 16, 2021	Data AugmentationEmotion Recognition	—Unverified
Momentum Pseudo-Labeling for Semi-Supervised Speech Recognition	Jun 16, 2021	Automatic Speech RecognitionAutomatic Speech Recognition (ASR)	CodeCode Available
Topic Classification on Spoken Documents Using Deep Acoustic and Linguistic Features	Jun 16, 2021	Automatic Speech RecognitionAutomatic Speech Recognition (ASR)	—Unverified
A Study into Pre-training Strategies for Spoken Language Understanding on Dysarthric Speech	Jun 15, 2021	Automatic Speech RecognitionAutomatic Speech Recognition (ASR)	—Unverified
ASR Adaptation for E-commerce Chatbots using Cross-Utterance Context and Multi-Task Language Modeling	Jun 15, 2021	Automatic Speech RecognitionAutomatic Speech Recognition (ASR)	—Unverified
Dialectal Speech Recognition and Translation of Swiss German Speech to Standard German Text: Microsoft's Submission to SwissText 2021	Jun 15, 2021	Automatic Speech RecognitionAutomatic Speech Recognition (ASR)	—Unverified
E2E-based Multi-task Learning Approach to Joint Speech and Accent Recognition	Jun 15, 2021	Multi-Task Learningspeech-recognition	—Unverified
Multi-channel Opus compression for far-field automatic speech recognition with a fixed bitrate budget	Jun 15, 2021	Automatic Speech RecognitionAutomatic Speech Recognition (ASR)	—Unverified
Using heterogeneity in semi-supervised transcription hypotheses to improve code-switched speech recognition	Jun 14, 2021	Automatic Speech RecognitionAutomatic Speech Recognition (ASR)	—Unverified
Dynamic Gradient Aggregation for Federated Domain Adaptation	Jun 14, 2021	Domain AdaptationFederated Learning	—Unverified
Kaizen: Continuously improving teacher using Exponential Moving Average for semi-supervised speech recognition	Jun 14, 2021	speech-recognitionSpeech Recognition	—Unverified
Audio Attacks and Defenses against AED Systems -- A Practical Study	Jun 14, 2021	Audio DenoisingDenoising	—Unverified
SynthASR: Unlocking Synthetic Data for Speech Recognition	Jun 14, 2021	Automatic Speech RecognitionAutomatic Speech Recognition (ASR)	—Unverified
Assessing the Use of Prosody in Constituency Parsing of Imperfect Transcripts	Jun 14, 2021	Automatic Speech RecognitionAutomatic Speech Recognition (ASR)	CodeCode Available
CoDERT: Distilling Encoder Representations with Co-learning for Transducer-based Speech Recognition	Jun 14, 2021	DecoderKnowledge Distillation	—Unverified

Show:10 25 50

← PrevPage 69 of 129Next →

All datasets LibriSpeech test-clean LibriSpeech test-other Switchboard + Hub500 TIMIT AISHELL-1 WSJ eval92 Common Voice German swb_hub_500 WER fullSWBCH TUDA Common Voice French Common Voice Spanish MediaSpeech

Benchmark Results

#	Model	Metric	Claimed	Verified	Status
1	AmNet	Word Error Rate (WER)	8.6	—	Unverified
2	HMM-(SAT)GMM	Word Error Rate (WER)	8	—	Unverified
3	Local Prior Matching (Large Model)	Word Error Rate (WER)	7.19	—	Unverified
4	Snips	Word Error Rate (WER)	6.4	—	Unverified
5	Li-GRU	Word Error Rate (WER)	6.2	—	Unverified
6	HMM-DNN + pNorm*	Word Error Rate (WER)	5.5	—	Unverified
7	CTC + policy learning	Word Error Rate (WER)	5.42	—	Unverified
8	Deep Speech 2	Word Error Rate (WER)	5.33	—	Unverified
9	HMM-TDNN + iVectors	Word Error Rate (WER)	4.8	—	Unverified
10	Gated ConvNets	Word Error Rate (WER)	4.8	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	Local Prior Matching (Large Model)	Word Error Rate (WER)	20.84	—	Unverified
2	Snips	Word Error Rate (WER)	16.5	—	Unverified
3	Local Prior Matching (Large Model, ConvLM LM)	Word Error Rate (WER)	15.28	—	Unverified
4	Deep Speech 2	Word Error Rate (WER)	13.25	—	Unverified
5	TDNN + pNorm + speed up/down speech	Word Error Rate (WER)	12.5	—	Unverified
6	CTC-CRF 4gram-LM	Word Error Rate (WER)	10.65	—	Unverified
7	Convolutional Speech Recognition	Word Error Rate (WER)	10.47	—	Unverified
8	MT4SSL	Word Error Rate (WER)	9.6	—	Unverified
9	Jasper DR 10x5	Word Error Rate (WER)	8.79	—	Unverified
10	Espresso	Word Error Rate (WER)	8.7	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	Deep Speech	Percentage error	20	—	Unverified
2	DNN-HMM	Percentage error	18.5	—	Unverified
3	CD-DNN	Percentage error	16.1	—	Unverified
4	DNN	Percentage error	16	—	Unverified
5	DNN + Dropout	Percentage error	15	—	Unverified
6	DNN BMMI	Percentage error	12.9	—	Unverified
7	DNN MPE	Percentage error	12.9	—	Unverified
8	DNN MMI	Percentage error	12.9	—	Unverified
9	HMM-TDNN + pNorm + speed up/down speech	Percentage error	12.9	—	Unverified
10	HMM-DNN +sMBR	Percentage error	12.6	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	LSNN	Percentage error	33.2	—	Unverified
2	LAS multitask with indicators sampling	Percentage error	20.4	—	Unverified
3	Soft Monotonic Attention (ours, offline)	Percentage error	20.1	—	Unverified
4	QCNN-10L-256FM	Percentage error	19.64	—	Unverified
5	Bi-LSTM + skip connections w/ CTC	Percentage error	17.7	—	Unverified
6	Bi-RNN + Attention	Percentage error	17.6	—	Unverified
7	RNN-CRF on 24(x3) MFSC	Percentage error	17.3	—	Unverified
8	CNN in time and frequency + dropout, 17.6% w/o dropout	Percentage error	16.7	—	Unverified
9	Light Gated Recurrent Units	Percentage error	16.7	—	Unverified
10	GRU	Percentage error	16.6	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	Att	Word Error Rate (WER)	18.7	—	Unverified
2	CTC/Att	Word Error Rate (WER)	6.7	—	Unverified
3	BRA-E	Word Error Rate (WER)	6.63	—	Unverified
4	CTC-CRF 4gram-LM	Word Error Rate (WER)	6.34	—	Unverified
5	BAT	Word Error Rate (WER)	4.97	—	Unverified
6	Paraformer	Word Error Rate (WER)	4.95	—	Unverified
7	U2	Word Error Rate (WER)	4.72	—	Unverified
8	UMA	Word Error Rate (WER)	4.7	—	Unverified
9	Lightweight Transducer	Word Error Rate (WER)	4.31	—	Unverified
10	CIF-HKD With LM	Word Error Rate (WER)	4.1	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	Jasper 10x3	Word Error Rate (WER)	6.9	—	Unverified
2	CNN over RAW speech (wav)	Word Error Rate (WER)	5.6	—	Unverified
3	CTC-CRF 4gram-LM	Word Error Rate (WER)	3.79	—	Unverified
4	Deep Speech 2	Word Error Rate (WER)	3.6	—	Unverified
5	test-set on open vocabulary (i.e. harder), model = HMM-DNN + pNorm*	Word Error Rate (WER)	3.6	—	Unverified
6	Convolutional Speech Recognition	Word Error Rate (WER)	3.5	—	Unverified
7	TC-DNN-BLSTM-DNN	Word Error Rate (WER)	3.5	—	Unverified
8	Espresso	Word Error Rate (WER)	3.4	—	Unverified
9	CTC-CRF VGG-BLSTM	Word Error Rate (WER)	3.2	—	Unverified
10	Transformer with Relaxed Attention	Word Error Rate (WER)	3.19	—	Unverified