Speech Recognition

Speech Recognition is the task of converting spoken language into text. It involves recognizing the words spoken in an audio recording and transcribing them into a written format. The goal is to accurately transcribe the speech in real-time or from recorded audio, taking into account factors such as accents, speaking speed, and background noise.

( Image credit: SpecAugment )

Papers

Recently Added Most Hyped Most Active Needs Verification Most Verified

Showing 3801–3850 of 6433 papers

Title	Date	Tasks	Status
Cascade RNN-Transducer: Syllable Based Streaming On-device Mandarin Speech Recognition with a Syllable-to-Character Converter	Nov 17, 2020	Automatic Speech RecognitionAutomatic Speech Recognition (ASR)	—Unverified
Empowering Things with Intelligence: A Survey of the Progress, Challenges, and Opportunities in Artificial Intelligence of Things	Nov 17, 2020	Cloud ComputingEdge-computing	—Unverified
Deep Shallow Fusion for RNN-T Personalization	Nov 16, 2020	Automatic Speech RecognitionAutomatic Speech Recognition (ASR)	—Unverified
Audio-visual Multi-channel Integration and Recognition of Overlapped Speech	Nov 16, 2020	Automatic Speech RecognitionAutomatic Speech Recognition (ASR)	—Unverified
Improving Speech Enhancement Performance by Leveraging Contextual Broad Phonetic Class Information	Nov 15, 2020	Automatic Speech RecognitionAutomatic Speech Recognition (ASR)	—Unverified
11 TeraFLOPs per second photonic convolutional accelerator for deep learning optical neural networks	Nov 14, 2020	Board GamesMedical Diagnosis	—Unverified
Self-supervised reinforcement learning for speaker localisation with the iCub humanoid robot	Nov 12, 2020	Automatic Speech RecognitionAutomatic Speech Recognition (ASR)	—Unverified
Towards Semi-Supervised Semantics Understanding from Speech	Nov 11, 2020	speech-recognitionSpeech Recognition	—Unverified
FAT: Training Neural Networks for Reliable Inference Under Hardware Faults	Nov 11, 2020	image-classificationImage Classification	—Unverified
On End-to-end Multi-channel Time Domain Speech Separation in Reverberant Environments	Nov 11, 2020	speech-recognitionSpeech Recognition	—Unverified
Simultaneous Speech-to-Speech Translation System with Neural Incremental ASR, MT, and TTS	Nov 10, 2020	Automatic Speech RecognitionAutomatic Speech Recognition (ASR)	—Unverified
Benchmarking LF-MMI, CTC and RNN-T Criteria for Streaming ASR	Nov 9, 2020	Automatic Speech RecognitionAutomatic Speech Recognition (ASR)	—Unverified
Personalized Query Rewriting in Conversational AI Agents	Nov 9, 2020	Automatic Speech RecognitionAutomatic Speech Recognition (ASR)	—Unverified
Neural Architecture Search with an Efficient Multiobjective Evolutionary Framework	Nov 9, 2020	Cardiac Segmentationimage-classification	—Unverified
Efficient End-to-End Speech Recognition Using Performers in Conformers	Nov 9, 2020	speech-recognitionSpeech Recognition	—Unverified
Gated Recurrent Fusion with Joint Training Framework for Robust End-to-End Speech Recognition	Nov 9, 2020	Automatic Speech RecognitionAutomatic Speech Recognition (ASR)	—Unverified
On the Usefulness of Self-Attention for Automatic Speech Recognition with Transformers	Nov 8, 2020	Automatic Speech RecognitionAutomatic Speech Recognition (ASR)	—Unverified
Stochastic Attention Head Removal: A simple and effective method for improving Transformer Based ASR Models	Nov 8, 2020	Automatic Speech RecognitionAutomatic Speech Recognition (ASR)	CodeCode Available
Acoustics Based Intent Recognition Using Discovered Phonetic Units for Low Resource Languages	Nov 7, 2020	Automatic Speech RecognitionAutomatic Speech Recognition (ASR)	—Unverified
ESPnet-se: end-to-end speech enhancement and separation toolkit designed for asr integration	Nov 7, 2020	Automatic Speech RecognitionAutomatic Speech Recognition (ASR)	—Unverified
Resource-Constrained Federated Learning with Heterogeneous Labels and Models	Nov 6, 2020	BIG-bench Machine LearningFederated Learning	—Unverified
Domain Adaptation Using Class Similarity for Robust Speech Recognition	Nov 5, 2020	Domain AdaptationRobust Speech Recognition	CodeCode Available
Alignment Restricted Streaming Recurrent Neural Network Transducer	Nov 5, 2020	Automatic Speech RecognitionAutomatic Speech Recognition (ASR)	—Unverified
Multi-Accent Adaptation based on Gate Mechanism	Nov 5, 2020	Multi-Task Learningspeech-recognition	—Unverified
Data Augmentation for End-to-end Code-switching Speech Recognition	Nov 4, 2020	Automatic Speech RecognitionAutomatic Speech Recognition (ASR)	—Unverified
Cross-Lingual Machine Speech Chain for Javanese, Sundanese, Balinese, and Bataks Speech Recognition and Synthesis	Nov 4, 2020	Machine Translationspeech-recognition	—Unverified
Augmenting Images for ASR and TTS through Single-loop and Dual-loop Multimodal Chain Framework	Nov 4, 2020	Automatic Speech RecognitionAutomatic Speech Recognition (ASR)	—Unverified
Sequence-to-Sequence Learning via Attention Transfer for Incremental Speech Recognition	Nov 4, 2020	Automatic Speech RecognitionAutomatic Speech Recognition (ASR)	—Unverified
Paralinguistic Privacy Protection at the Edge	Nov 4, 2020	CPUKnowledge Distillation	—Unverified
Incremental Machine Speech Chain Towards Enabling Listening while Speaking in Real-time	Nov 4, 2020	Automatic Speech RecognitionAutomatic Speech Recognition (ASR)	—Unverified
Streaming Attention-Based Models with Augmented Memory for End-to-End Speech Recognition	Nov 3, 2020	Automatic Speech RecognitionAutomatic Speech Recognition (ASR)	—Unverified
Unsupervised Pattern Discovery from Thematic Speech Archives Based on Multilingual Bottleneck Features	Nov 3, 2020	Automatic Speech RecognitionAutomatic Speech Recognition (ASR)	—Unverified
Dynamic latency speech recognition with asynchronous revision	Nov 3, 2020	Decoderspeech-recognition	—Unverified
Improving RNN transducer with normalized jointer network	Nov 3, 2020	Automatic Speech RecognitionAutomatic Speech Recognition (ASR)	—Unverified
Warped Language Models for Noise Robust Language Understanding	Nov 3, 2020	Automatic Speech RecognitionAutomatic Speech Recognition (ASR)	—Unverified
Learning Explicit Prosody Models and Deep Speaker Embeddings for Atypical Voice Conversion	Nov 3, 2020	speech-recognitionSpeech Recognition	—Unverified
Internal Language Model Estimation for Domain-Adaptive End-to-End Speech Recognition	Nov 3, 2020	Automatic Speech RecognitionAutomatic Speech Recognition (ASR)	—Unverified
Integration of speech separation, diarization, and recognition for multi-speaker meetings: System description, comparison, and analysis	Nov 3, 2020	Automatic Speech RecognitionAutomatic Speech Recognition (ASR)	—Unverified
DNN-Based Semantic Model for Rescoring N-best Speech Recognition List	Nov 2, 2020	Automatic Speech RecognitionAutomatic Speech Recognition (ASR)	—Unverified
SapAugment: Learning A Sample Adaptive Policy for Data Augmentation	Nov 2, 2020	Automatic Speech RecognitionAutomatic Speech Recognition (ASR)	—Unverified
Focus on the present: a regularization method for the ASR source-target attention layer	Nov 2, 2020	Decoderspeech-recognition	—Unverified
Multitask Learning and Joint Optimization for Transformer-RNN-Transducer Speech Recognition	Nov 2, 2020	speech-recognitionSpeech Recognition	—Unverified
Direct Segmentation Models for Streaming Speech Translation	Nov 1, 2020	Automatic Speech RecognitionAutomatic Speech Recognition (ASR)	CodeCode Available
May I Ask Who’s Calling? Named Entity Recognition on Call Center Transcripts for Privacy Law Compliance	Nov 1, 2020	named-entity-recognitionNamed Entity Recognition	—Unverified
ELITR: European Live Translator	Nov 1, 2020	Automatic Speech RecognitionAutomatic Speech Recognition (ASR)	—Unverified
Impact of ASR on Alzheimer’s Disease Detection: All Errors are Equal, but Deletions are More Equal than Others	Nov 1, 2020	AllAutomatic Speech Recognition	—Unverified
Simultaneous Translation	Nov 1, 2020	Machine Translationspeech-recognition	—Unverified
Effectively pretraining a speech translation decoder with Machine Translation data	Nov 1, 2020	Automatic Speech RecognitionAutomatic Speech Recognition (ASR)	—Unverified
Improving End-to-End Bangla Speech Recognition with Semi-supervised Training	Nov 1, 2020	Automatic Speech RecognitionAutomatic Speech Recognition (ASR)	—Unverified
Multilingual Bottleneck Features for Improving ASR Performance of Code-Switched Speech in Under-Resourced Languages	Oct 31, 2020	Acoustic ModellingAutomatic Speech Recognition	CodeCode Available

Show:10 25 50

← PrevPage 77 of 129Next →

All datasets LibriSpeech test-clean LibriSpeech test-other Switchboard + Hub500 TIMIT AISHELL-1 WSJ eval92 Common Voice German swb_hub_500 WER fullSWBCH TUDA Common Voice French Common Voice Spanish MediaSpeech

Benchmark Results

#	Model	Metric	Claimed	Verified	Status
1	AmNet	Word Error Rate (WER)	8.6	—	Unverified
2	HMM-(SAT)GMM	Word Error Rate (WER)	8	—	Unverified
3	Local Prior Matching (Large Model)	Word Error Rate (WER)	7.19	—	Unverified
4	Snips	Word Error Rate (WER)	6.4	—	Unverified
5	Li-GRU	Word Error Rate (WER)	6.2	—	Unverified
6	HMM-DNN + pNorm*	Word Error Rate (WER)	5.5	—	Unverified
7	CTC + policy learning	Word Error Rate (WER)	5.42	—	Unverified
8	Deep Speech 2	Word Error Rate (WER)	5.33	—	Unverified
9	HMM-TDNN + iVectors	Word Error Rate (WER)	4.8	—	Unverified
10	Gated ConvNets	Word Error Rate (WER)	4.8	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	Local Prior Matching (Large Model)	Word Error Rate (WER)	20.84	—	Unverified
2	Snips	Word Error Rate (WER)	16.5	—	Unverified
3	Local Prior Matching (Large Model, ConvLM LM)	Word Error Rate (WER)	15.28	—	Unverified
4	Deep Speech 2	Word Error Rate (WER)	13.25	—	Unverified
5	TDNN + pNorm + speed up/down speech	Word Error Rate (WER)	12.5	—	Unverified
6	CTC-CRF 4gram-LM	Word Error Rate (WER)	10.65	—	Unverified
7	Convolutional Speech Recognition	Word Error Rate (WER)	10.47	—	Unverified
8	MT4SSL	Word Error Rate (WER)	9.6	—	Unverified
9	Jasper DR 10x5	Word Error Rate (WER)	8.79	—	Unverified
10	Espresso	Word Error Rate (WER)	8.7	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	Deep Speech	Percentage error	20	—	Unverified
2	DNN-HMM	Percentage error	18.5	—	Unverified
3	CD-DNN	Percentage error	16.1	—	Unverified
4	DNN	Percentage error	16	—	Unverified
5	DNN + Dropout	Percentage error	15	—	Unverified
6	DNN BMMI	Percentage error	12.9	—	Unverified
7	DNN MPE	Percentage error	12.9	—	Unverified
8	DNN MMI	Percentage error	12.9	—	Unverified
9	HMM-TDNN + pNorm + speed up/down speech	Percentage error	12.9	—	Unverified
10	HMM-DNN +sMBR	Percentage error	12.6	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	LSNN	Percentage error	33.2	—	Unverified
2	LAS multitask with indicators sampling	Percentage error	20.4	—	Unverified
3	Soft Monotonic Attention (ours, offline)	Percentage error	20.1	—	Unverified
4	QCNN-10L-256FM	Percentage error	19.64	—	Unverified
5	Bi-LSTM + skip connections w/ CTC	Percentage error	17.7	—	Unverified
6	Bi-RNN + Attention	Percentage error	17.6	—	Unverified
7	RNN-CRF on 24(x3) MFSC	Percentage error	17.3	—	Unverified
8	CNN in time and frequency + dropout, 17.6% w/o dropout	Percentage error	16.7	—	Unverified
9	Light Gated Recurrent Units	Percentage error	16.7	—	Unverified
10	GRU	Percentage error	16.6	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	Att	Word Error Rate (WER)	18.7	—	Unverified
2	CTC/Att	Word Error Rate (WER)	6.7	—	Unverified
3	BRA-E	Word Error Rate (WER)	6.63	—	Unverified
4	CTC-CRF 4gram-LM	Word Error Rate (WER)	6.34	—	Unverified
5	BAT	Word Error Rate (WER)	4.97	—	Unverified
6	Paraformer	Word Error Rate (WER)	4.95	—	Unverified
7	U2	Word Error Rate (WER)	4.72	—	Unverified
8	UMA	Word Error Rate (WER)	4.7	—	Unverified
9	Lightweight Transducer	Word Error Rate (WER)	4.31	—	Unverified
10	CIF-HKD With LM	Word Error Rate (WER)	4.1	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	Jasper 10x3	Word Error Rate (WER)	6.9	—	Unverified
2	CNN over RAW speech (wav)	Word Error Rate (WER)	5.6	—	Unverified
3	CTC-CRF 4gram-LM	Word Error Rate (WER)	3.79	—	Unverified
4	Deep Speech 2	Word Error Rate (WER)	3.6	—	Unverified
5	test-set on open vocabulary (i.e. harder), model = HMM-DNN + pNorm*	Word Error Rate (WER)	3.6	—	Unverified
6	Convolutional Speech Recognition	Word Error Rate (WER)	3.5	—	Unverified
7	TC-DNN-BLSTM-DNN	Word Error Rate (WER)	3.5	—	Unverified
8	Espresso	Word Error Rate (WER)	3.4	—	Unverified
9	CTC-CRF VGG-BLSTM	Word Error Rate (WER)	3.2	—	Unverified
10	Transformer with Relaxed Attention	Word Error Rate (WER)	3.19	—	Unverified