Speech Recognition

Speech Recognition is the task of converting spoken language into text. It involves recognizing the words spoken in an audio recording and transcribing them into a written format. The goal is to accurately transcribe the speech in real-time or from recorded audio, taking into account factors such as accents, speaking speed, and background noise.

( Image credit: SpecAugment )

Papers

Recently Added Most Hyped Most Active Needs Verification Most Verified

Showing 3851–3900 of 6433 papers

Title	Date	Tasks	Status
Streaming Simultaneous Speech Translation with Augmented Memory Transformer	Oct 30, 2020	Automatic Speech RecognitionAutomatic Speech Recognition (ASR)	—Unverified
Directional ASR: A New Paradigm for E2E Multi-Speaker Speech Recognition with Source Localization	Oct 30, 2020	Automatic Speech RecognitionAutomatic Speech Recognition (ASR)	—Unverified
Phoneme Based Neural Transducer for Large Vocabulary Speech Recognition	Oct 30, 2020	Language ModelingLanguage Modelling	—Unverified
Semi-Supervised Speech Recognition via Graph-based Temporal Classification	Oct 29, 2020	Automatic Speech RecognitionAutomatic Speech Recognition (ASR)	—Unverified
May I Ask Who's Calling? Named Entity Recognition on Call Center Transcripts for Privacy Law Compliance	Oct 29, 2020	named-entity-recognitionNamed Entity Recognition	—Unverified
Training Speech Recognition Models with Federated Learning: A Quality/Cost Framework	Oct 29, 2020	Federated Learningspeech-recognition	—Unverified
Non-Autoregressive Transformer ASR with CTC-Enhanced Decoder Input	Oct 28, 2020	Automatic Speech RecognitionAutomatic Speech Recognition (ASR)	—Unverified
One In A Hundred: Select The Best Predicted Sequence from Numerous Candidates for Streaming Speech Recognition	Oct 28, 2020	DecoderDiversity	—Unverified
Fusion Models for Improved Visual Captioning	Oct 28, 2020	Automatic Speech RecognitionAutomatic Speech Recognition (ASR)	—Unverified
INT8 Winograd Acceleration for Conv1D Equipped ASR Models Deployed on Mobile Devices	Oct 28, 2020	Automatic Speech RecognitionAutomatic Speech Recognition (ASR)	—Unverified
Decoupling Pronunciation and Language for End-to-end Code-switching Automatic Speech Recognition	Oct 28, 2020	Automatic Speech RecognitionAutomatic Speech Recognition (ASR)	—Unverified
CASS-NAT: CTC Alignment-based Single Step Non-autoregressive Transformer for Speech Recognition	Oct 28, 2020	Decoderspeech-recognition	—Unverified
Effective Decoder Masking for Transformer Based End-to-End Speech Recognition	Oct 27, 2020	Automatic Speech RecognitionAutomatic Speech Recognition (ASR)	—Unverified
Multitask Training with Text Data for End-to-End Speech Recognition	Oct 27, 2020	DecoderLanguage Modeling	—Unverified
End-to-End Far-Field Speech Recognition with Unified Dereverberation and Beamforming	Oct 27, 2020	speech-recognitionSpeech Recognition	—Unverified
Cascaded encoders for unifying streaming and non-streaming ASR	Oct 27, 2020	Automatic Speech RecognitionAutomatic Speech Recognition (ASR)	—Unverified
Transformer in action: a comparative study of transformer-based acoustic models for large scale speech recognition applications	Oct 27, 2020	speech-recognitionSpeech Recognition	—Unverified
Emotion recognition by fusing time synchronous and time asynchronous representations	Oct 27, 2020	Automatic Speech RecognitionAutomatic Speech Recognition (ASR)	—Unverified
Improved Neural Language Model Fusion for Streaming Recurrent Neural Network Transducer	Oct 26, 2020	Language ModelingLanguage Modelling	—Unverified
Improved Mask-CTC for Non-Autoregressive End-to-End ASR	Oct 26, 2020	Automatic Speech RecognitionAutomatic Speech Recognition (ASR)	—Unverified
Lip Graph Assisted Audio-Visual Speech Recognition Using Bidirectional Synchronous Fusion	Oct 25, 2020	Audio-Visual Speech RecognitionLandmark-based Lipreading	—Unverified
Large-Scale End-to-End Multilingual Speech Recognition and Language Identification with Multi-Task Learning	Oct 25, 2020	Automatic Speech RecognitionAutomatic Speech Recognition (ASR)	CodeCode Available
Two-stage Textual Knowledge Distillation for End-to-End Spoken Language Understanding	Oct 25, 2020	Automatic Speech RecognitionAutomatic Speech Recognition (ASR)	CodeCode Available
Probing Acoustic Representations for Phonetic Properties	Oct 25, 2020	Benchmarkingspeech-recognition	CodeCode Available
Auxiliary Sequence Labeling Tasks for Disfluency Detection	Oct 24, 2020	named-entity-recognitionNamed Entity Recognition	—Unverified
Align-Refine: Non-Autoregressive Speech Recognition via Iterative Realignment	Oct 24, 2020	Decoderspeech-recognition	—Unverified
Transformer-based End-to-End Speech Recognition with Local Dense Synthesizer Attention	Oct 23, 2020	speech-recognitionSpeech Recognition	CodeCode Available
Improving Noise Robustness of an End-to-End Neural Model for Automatic Speech Recognition	Oct 23, 2020	Automatic Speech RecognitionAutomatic Speech Recognition (ASR)	—Unverified
On Minimum Word Error Rate Training of the Hybrid Autoregressive Transducer	Oct 23, 2020	Language ModelingLanguage Modelling	—Unverified
Improving Streaming Automatic Speech Recognition With Non-Streaming Model Distillation On Unsupervised Data	Oct 22, 2020	Automatic Speech RecognitionAutomatic Speech Recognition (ASR)	—Unverified
How Phonotactics Affect Multilingual and Zero-shot ASR Performance	Oct 22, 2020	Automatic Speech RecognitionAutomatic Speech Recognition (ASR)	CodeCode Available
Rethinking Evaluation in ASR: Are Our Models Robust Enough?	Oct 22, 2020	Automatic Speech RecognitionAutomatic Speech Recognition (ASR)	CodeCode Available
Self-training and Pre-training are Complementary for Speech Recognition	Oct 22, 2020	speech-recognitionSpeech Recognition	CodeCode Available
SlimIPL: Language-Model-Free Iterative Pseudo-Labeling	Oct 22, 2020	Automatic Speech RecognitionAutomatic Speech Recognition (ASR)	—Unverified
Developing Real-time Streaming Transformer Transducer for Speech Recognition on Large-scale Dataset	Oct 22, 2020	Decoderspeech-recognition	—Unverified
MAM: Masked Acoustic Modeling for End-to-End Speech-to-Text Translation	Oct 22, 2020	Automatic Speech RecognitionAutomatic Speech Recognition (ASR)	—Unverified
Multilingual Approach to Joint Speech and Accent Recognition with DNN-HMM Framework	Oct 22, 2020	speech-recognitionSpeech Recognition	—Unverified
A General Multi-Task Learning Framework to Leverage Text Data for Speech to Text Tasks	Oct 21, 2020	Automatic Speech RecognitionAutomatic Speech Recognition (ASR)	—Unverified
Cascaded Models With Cyclic Feedback For Direct Speech Translation	Oct 21, 2020	Automatic Speech RecognitionAutomatic Speech Recognition (ASR)	—Unverified
VenoMave: Targeted Poisoning Against Speech Recognition	Oct 21, 2020	Automatic Speech RecognitionAutomatic Speech Recognition (ASR)	CodeCode Available
LSTM-LM with Long-Term History for First-Pass Decoding in Conversational Speech Recognition	Oct 21, 2020	Decoderspeech-recognition	—Unverified
Knowledge Distillation for Improved Accuracy in Spoken Question Answering	Oct 21, 2020	Automatic Speech RecognitionAutomatic Speech Recognition (ASR)	—Unverified
Sentence Boundary Augmentation For Neural Machine Translation Robustness	Oct 21, 2020	Automatic Speech RecognitionAutomatic Speech Recognition (ASR)	—Unverified
FastEmit: Low-latency Streaming ASR with Sequence-level Emission Regularization	Oct 21, 2020	Automatic Speech RecognitionAutomatic Speech Recognition (ASR)	CodeCode Available
Emformer: Efficient Memory Transformer Based Acoustic Model For Low Latency Streaming Speech Recognition	Oct 21, 2020	speech-recognitionSpeech Recognition	—Unverified
Towards End-to-End Training of Automatic Speech Recognition for Nigerian Pidgin	Oct 21, 2020	Automatic Speech RecognitionAutomatic Speech Recognition (ASR)	CodeCode Available
Replacing Human Audio with Synthetic Audio for On-device Unspoken Punctuation Prediction	Oct 20, 2020	Automatic Speech RecognitionAutomatic Speech Recognition (ASR)	—Unverified
Speaker Separation Using Speaker Inventories and Estimated Speech	Oct 20, 2020	Speaker SeparationSpeech Extraction	—Unverified
Knowledge Transfer for Efficient On-device False Trigger Mitigation	Oct 20, 2020	Automatic Speech RecognitionAutomatic Speech Recognition (ASR)	—Unverified
Ensemble Chinese End-to-End Spoken Language Understanding for Abnormal Event Detection from audio stream	Oct 19, 2020	Automatic Speech RecognitionAutomatic Speech Recognition (ASR)	—Unverified

Show:10 25 50

← PrevPage 78 of 129Next →

All datasets LibriSpeech test-clean LibriSpeech test-other Switchboard + Hub500 TIMIT AISHELL-1 WSJ eval92 Common Voice German swb_hub_500 WER fullSWBCH TUDA Common Voice French Common Voice Spanish MediaSpeech

Benchmark Results

#	Model	Metric	Claimed	Verified	Status
1	AmNet	Word Error Rate (WER)	8.6	—	Unverified
2	HMM-(SAT)GMM	Word Error Rate (WER)	8	—	Unverified
3	Local Prior Matching (Large Model)	Word Error Rate (WER)	7.19	—	Unverified
4	Snips	Word Error Rate (WER)	6.4	—	Unverified
5	Li-GRU	Word Error Rate (WER)	6.2	—	Unverified
6	HMM-DNN + pNorm*	Word Error Rate (WER)	5.5	—	Unverified
7	CTC + policy learning	Word Error Rate (WER)	5.42	—	Unverified
8	Deep Speech 2	Word Error Rate (WER)	5.33	—	Unverified
9	HMM-TDNN + iVectors	Word Error Rate (WER)	4.8	—	Unverified
10	Gated ConvNets	Word Error Rate (WER)	4.8	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	Local Prior Matching (Large Model)	Word Error Rate (WER)	20.84	—	Unverified
2	Snips	Word Error Rate (WER)	16.5	—	Unverified
3	Local Prior Matching (Large Model, ConvLM LM)	Word Error Rate (WER)	15.28	—	Unverified
4	Deep Speech 2	Word Error Rate (WER)	13.25	—	Unverified
5	TDNN + pNorm + speed up/down speech	Word Error Rate (WER)	12.5	—	Unverified
6	CTC-CRF 4gram-LM	Word Error Rate (WER)	10.65	—	Unverified
7	Convolutional Speech Recognition	Word Error Rate (WER)	10.47	—	Unverified
8	MT4SSL	Word Error Rate (WER)	9.6	—	Unverified
9	Jasper DR 10x5	Word Error Rate (WER)	8.79	—	Unverified
10	Espresso	Word Error Rate (WER)	8.7	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	Deep Speech	Percentage error	20	—	Unverified
2	DNN-HMM	Percentage error	18.5	—	Unverified
3	CD-DNN	Percentage error	16.1	—	Unverified
4	DNN	Percentage error	16	—	Unverified
5	DNN + Dropout	Percentage error	15	—	Unverified
6	DNN BMMI	Percentage error	12.9	—	Unverified
7	DNN MPE	Percentage error	12.9	—	Unverified
8	DNN MMI	Percentage error	12.9	—	Unverified
9	HMM-TDNN + pNorm + speed up/down speech	Percentage error	12.9	—	Unverified
10	HMM-DNN +sMBR	Percentage error	12.6	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	LSNN	Percentage error	33.2	—	Unverified
2	LAS multitask with indicators sampling	Percentage error	20.4	—	Unverified
3	Soft Monotonic Attention (ours, offline)	Percentage error	20.1	—	Unverified
4	QCNN-10L-256FM	Percentage error	19.64	—	Unverified
5	Bi-LSTM + skip connections w/ CTC	Percentage error	17.7	—	Unverified
6	Bi-RNN + Attention	Percentage error	17.6	—	Unverified
7	RNN-CRF on 24(x3) MFSC	Percentage error	17.3	—	Unverified
8	CNN in time and frequency + dropout, 17.6% w/o dropout	Percentage error	16.7	—	Unverified
9	Light Gated Recurrent Units	Percentage error	16.7	—	Unverified
10	GRU	Percentage error	16.6	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	Att	Word Error Rate (WER)	18.7	—	Unverified
2	CTC/Att	Word Error Rate (WER)	6.7	—	Unverified
3	BRA-E	Word Error Rate (WER)	6.63	—	Unverified
4	CTC-CRF 4gram-LM	Word Error Rate (WER)	6.34	—	Unverified
5	BAT	Word Error Rate (WER)	4.97	—	Unverified
6	Paraformer	Word Error Rate (WER)	4.95	—	Unverified
7	U2	Word Error Rate (WER)	4.72	—	Unverified
8	UMA	Word Error Rate (WER)	4.7	—	Unverified
9	Lightweight Transducer	Word Error Rate (WER)	4.31	—	Unverified
10	CIF-HKD With LM	Word Error Rate (WER)	4.1	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	Jasper 10x3	Word Error Rate (WER)	6.9	—	Unverified
2	CNN over RAW speech (wav)	Word Error Rate (WER)	5.6	—	Unverified
3	CTC-CRF 4gram-LM	Word Error Rate (WER)	3.79	—	Unverified
4	Deep Speech 2	Word Error Rate (WER)	3.6	—	Unverified
5	test-set on open vocabulary (i.e. harder), model = HMM-DNN + pNorm*	Word Error Rate (WER)	3.6	—	Unverified
6	Convolutional Speech Recognition	Word Error Rate (WER)	3.5	—	Unverified
7	TC-DNN-BLSTM-DNN	Word Error Rate (WER)	3.5	—	Unverified
8	Espresso	Word Error Rate (WER)	3.4	—	Unverified
9	CTC-CRF VGG-BLSTM	Word Error Rate (WER)	3.2	—	Unverified
10	Transformer with Relaxed Attention	Word Error Rate (WER)	3.19	—	Unverified