Speech Recognition

Speech Recognition is the task of converting spoken language into text. It involves recognizing the words spoken in an audio recording and transcribing them into a written format. The goal is to accurately transcribe the speech in real-time or from recorded audio, taking into account factors such as accents, speaking speed, and background noise.

( Image credit: SpecAugment )

Papers

Recently Added Most Hyped Most Active Needs Verification Most Verified

Showing 3801–3850 of 6433 papers

Title	Date	Tasks	Status	Hype
The design and implementation of Language Learning Chatbot with XAI using Ontology and Transfer Learning	Sep 29, 2020	ChatbotExplainable artificial intelligence	—Unverified	0
A Study on Lip Localization Techniques used for Lip reading from a Video	Sep 28, 2020	Automatic Speech RecognitionAutomatic Speech Recognition (ASR)	—Unverified	0
FluentNet: End-to-End Detection of Speech Disfluency with Deep Learning	Sep 23, 2020	Automatic Speech RecognitionAutomatic Speech Recognition (ASR)	—Unverified	0
Estimation error analysis of deep learning on the regression problem on the variable exponent Besov space	Sep 23, 2020	Deep Learningspeech-recognition	—Unverified	0
A Crowdsourced Open-Source Kazakh Speech Corpus and Initial Speech Recognition Baseline	Sep 22, 2020	speech-recognitionSpeech Recognition	CodeCode Available	1
End-to-End Speech Recognition and Disfluency Removal	Sep 22, 2020	Automatic Speech RecognitionAutomatic Speech Recognition (ASR)	CodeCode Available	1
End-to-End Learning of Speech 2D Feature-Trajectory for Prosthetic Hands	Sep 22, 2020	Automatic Speech RecognitionAutomatic Speech Recognition (ASR)	CodeCode Available	0
Consecutive Decoding for Speech-to-text Translation	Sep 21, 2020	DecoderMachine Translation	CodeCode Available	1
An analysis of deep neural networks for predicting trends in time series data	Sep 16, 2020	Speech RecognitionTime Series	—Unverified	0
Monolingual Data Selection Analysis for English-Mandarin Hybrid Code-switching Speech Recognition	Sep 14, 2020	speech-recognitionSpeech Recognition	—Unverified	0
EasyASR: A Distributed Machine Learning Platform for End-to-end Automatic Speech Recognition	Sep 14, 2020	Automatic Speech RecognitionAutomatic Speech Recognition (ASR)	—Unverified	0
SWP-LeafNET: A novel multistage approach for plant leaf identification based on deep CNN	Sep 10, 2020	Deep LearningObject Recognition	—Unverified	0
Multi-modal embeddings using multi-task learning for emotion recognition	Sep 10, 2020	Automatic Speech RecognitionAutomatic Speech Recognition (ASR)	—Unverified	0
VoiceFilter-Lite: Streaming Targeted Voice Separation for On-Device Speech Recognition	Sep 9, 2020	CPUspeech-recognition	CodeCode Available	2
Unmanned Aerial Vehicle Control Through Domain-based Automatic Speech Recognition	Sep 9, 2020	Action RecognitionAutomatic Speech Recognition	—Unverified	0
An End-to-end Architecture of Online Multi-channel Speech Separation	Sep 7, 2020	speech-recognitionSpeech Recognition	—Unverified	0
KoSpeech: Open-Source Toolkit for End-to-End Korean Speech Recognition	Sep 7, 2020	Automatic Speech RecognitionAutomatic Speech Recognition (ASR)	CodeCode Available	1
Robust Spoken Language Understanding with RL-based Value Error Recovery	Sep 7, 2020	Automatic Speech RecognitionAutomatic Speech Recognition (ASR)	—Unverified	0
Libri-Adapt: A New Speech Dataset for Unsupervised Domain Adaptation	Sep 6, 2020	Domain Adaptationspeech-recognition	CodeCode Available	1
Any-to-Many Voice Conversion with Location-Relative Sequence-to-Sequence Modeling	Sep 6, 2020	feature selectionspeech-recognition	CodeCode Available	1
Silent Speech Interfaces for Speech Restoration: A Review	Sep 4, 2020	Automatic Speech RecognitionAutomatic Speech Recognition (ASR)	—Unverified	0
Voice Conversion by Cascading Automatic Speech Recognition and Text-to-Speech Synthesis with Prosody Transfer	Sep 3, 2020	Automatic Speech RecognitionAutomatic Speech Recognition (ASR)	—Unverified	0
Fine-grained Early Frequency Attention for Deep Speaker Representation Learning	Sep 3, 2020	Deep LearningEmotion Recognition	—Unverified	0
Estimating the Brittleness of AI: Safety Integrity Levels and the Need for Testing Out-Of-Distribution Performance	Sep 2, 2020	image-classificationImage Classification	—Unverified	0
Convolutional Speech Recognition with Pitch and Voice Quality Features	Sep 2, 2020	Automatic Speech RecognitionAutomatic Speech Recognition (ASR)	—Unverified	0
Innovative Pretrained-based Reranking Language Models for N-best Speech Recognition Lists	Sep 1, 2020	Rerankingspeech-recognition	—Unverified	0
Nepali Speech Recognition Using CNN, GRU and CTC	Sep 1, 2020	Nepali Speech Recognitionspeech-recognition	—Unverified	0
A Preliminary Study on Leveraging Meta Learning Technique for Code-switching Speech Recognition	Sep 1, 2020	Meta-Learningspeech-recognition	—Unverified	0
Taiwanese Speech Recognition Based on Hybrid Deep Neural Network Architecture	Sep 1, 2020	speech-recognitionSpeech Recognition	—Unverified	0
Multi-view Attention-based Speech Enhancement Model for Noise-robust Automatic Speech Recognition	Sep 1, 2020	Automatic Speech RecognitionAutomatic Speech Recognition (ASR)	—Unverified	0
Hearings and mishearings: decrypting the spoken word	Sep 1, 2020	Speech Recognition	—Unverified	0
Survey of Machine Learning Accelerators	Sep 1, 2020	BIG-bench Machine Learningobject-detection	—Unverified	0
A Survey of Deep Active Learning	Aug 30, 2020	Active Learningspeech-recognition	CodeCode Available	0
Parallel Rescoring with Transformer for Streaming On-Device Speech Recognition	Aug 30, 2020	speech-recognitionSpeech Recognition	—Unverified	0
Data augmentation using prosody and false starts to recognize non-native children's speech	Aug 29, 2020	Automatic Speech RecognitionAutomatic Speech Recognition (ASR)	CodeCode Available	0
Optimising AI Training Deployments using Graph Compilers and Containers	Aug 26, 2020	speech-recognitionSpeech Recognition	—Unverified	0
Learned Transferable Architectures Can Surpass Hand-Designed Architectures for Large Scale Speech Recognition	Aug 25, 2020	Automatic Speech RecognitionAutomatic Speech Recognition (ASR)	—Unverified	0
Aphasic Speech Recognition using a Mixture of Speech Intelligibility Experts	Aug 25, 2020	Automatic Speech RecognitionAutomatic Speech Recognition (ASR)	—Unverified	0
A Survey on Evolutionary Neural Architecture Search	Aug 25, 2020	Image ClassificationNeural Architecture Search	—Unverified	0
Machine Semiotics	Aug 24, 2020	Implicaturesspeech-recognition	—Unverified	0
Improving Tail Performance of a Deliberation E2E ASR Model Using a Large Text Corpus	Aug 24, 2020	Automatic Speech RecognitionAutomatic Speech Recognition (ASR)	—Unverified	0
Cross-Utterance Language Models with Acoustic Error Sampling	Aug 19, 2020	Automatic Speech RecognitionAutomatic Speech Recognition (ASR)	—Unverified	0
Compiling ONNX Neural Network Models Using MLIR	Aug 19, 2020	speech-recognitionSpeech Recognition	CodeCode Available	1
A Real-time Robot-based Auxiliary System for Risk Evaluation of COVID-19 Infection	Aug 18, 2020	Diagnosticspeech-recognition	—Unverified	0
Are Neural Open-Domain Dialog Systems Robust to Speech Recognition Errors in the Dialog History? An Empirical Study	Aug 18, 2020	Automatic Speech RecognitionAutomatic Speech Recognition (ASR)	CodeCode Available	0
Computer-Generated Music for Tabletop Role-Playing Games	Aug 16, 2020	speech-recognitionSpeech Recognition	CodeCode Available	1
Speech To Semantics: Improve ASR and NLU Jointly via All-Neural Interfaces	Aug 14, 2020	AllAutomatic Speech Recognition	—Unverified	0
Adaptation Algorithms for Neural Network-Based Speech Recognition: An Overview	Aug 14, 2020	Data AugmentationDomain Adaptation	CodeCode Available	0
Sum-Product Networks for Robust Automatic Speaker Identification	Aug 13, 2020	Automatic Speech RecognitionAutomatic Speech Recognition (ASR)	CodeCode Available	1
LSTM Acoustic Models Learn to Align and Pronounce with Graphemes	Aug 13, 2020	speech-recognitionSpeech Recognition	—Unverified	0

Show:10 25 50

← PrevPage 77 of 129Next →

All datasets LibriSpeech test-clean LibriSpeech test-other Switchboard + Hub500 TIMIT AISHELL-1 WSJ eval92 Common Voice German swb_hub_500 WER fullSWBCH TUDA Common Voice French Common Voice Spanish MediaSpeech

Benchmark Results

#	Model	Metric	Claimed	Verified	Status
1	AmNet	Word Error Rate (WER)	8.6	—	Unverified
2	HMM-(SAT)GMM	Word Error Rate (WER)	8	—	Unverified
3	Local Prior Matching (Large Model)	Word Error Rate (WER)	7.19	—	Unverified
4	Snips	Word Error Rate (WER)	6.4	—	Unverified
5	Li-GRU	Word Error Rate (WER)	6.2	—	Unverified
6	HMM-DNN + pNorm*	Word Error Rate (WER)	5.5	—	Unverified
7	CTC + policy learning	Word Error Rate (WER)	5.42	—	Unverified
8	Deep Speech 2	Word Error Rate (WER)	5.33	—	Unverified
9	HMM-TDNN + iVectors	Word Error Rate (WER)	4.8	—	Unverified
10	Gated ConvNets	Word Error Rate (WER)	4.8	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	Local Prior Matching (Large Model)	Word Error Rate (WER)	20.84	—	Unverified
2	Snips	Word Error Rate (WER)	16.5	—	Unverified
3	Local Prior Matching (Large Model, ConvLM LM)	Word Error Rate (WER)	15.28	—	Unverified
4	Deep Speech 2	Word Error Rate (WER)	13.25	—	Unverified
5	TDNN + pNorm + speed up/down speech	Word Error Rate (WER)	12.5	—	Unverified
6	CTC-CRF 4gram-LM	Word Error Rate (WER)	10.65	—	Unverified
7	Convolutional Speech Recognition	Word Error Rate (WER)	10.47	—	Unverified
8	MT4SSL	Word Error Rate (WER)	9.6	—	Unverified
9	Jasper DR 10x5	Word Error Rate (WER)	8.79	—	Unverified
10	Espresso	Word Error Rate (WER)	8.7	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	Deep Speech	Percentage error	20	—	Unverified
2	DNN-HMM	Percentage error	18.5	—	Unverified
3	CD-DNN	Percentage error	16.1	—	Unverified
4	DNN	Percentage error	16	—	Unverified
5	DNN + Dropout	Percentage error	15	—	Unverified
6	DNN BMMI	Percentage error	12.9	—	Unverified
7	DNN MPE	Percentage error	12.9	—	Unverified
8	DNN MMI	Percentage error	12.9	—	Unverified
9	HMM-TDNN + pNorm + speed up/down speech	Percentage error	12.9	—	Unverified
10	HMM-DNN +sMBR	Percentage error	12.6	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	LSNN	Percentage error	33.2	—	Unverified
2	LAS multitask with indicators sampling	Percentage error	20.4	—	Unverified
3	Soft Monotonic Attention (ours, offline)	Percentage error	20.1	—	Unverified
4	QCNN-10L-256FM	Percentage error	19.64	—	Unverified
5	Bi-LSTM + skip connections w/ CTC	Percentage error	17.7	—	Unverified
6	Bi-RNN + Attention	Percentage error	17.6	—	Unverified
7	RNN-CRF on 24(x3) MFSC	Percentage error	17.3	—	Unverified
8	CNN in time and frequency + dropout, 17.6% w/o dropout	Percentage error	16.7	—	Unverified
9	Light Gated Recurrent Units	Percentage error	16.7	—	Unverified
10	GRU	Percentage error	16.6	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	Att	Word Error Rate (WER)	18.7	—	Unverified
2	CTC/Att	Word Error Rate (WER)	6.7	—	Unverified
3	BRA-E	Word Error Rate (WER)	6.63	—	Unverified
4	CTC-CRF 4gram-LM	Word Error Rate (WER)	6.34	—	Unverified
5	BAT	Word Error Rate (WER)	4.97	—	Unverified
6	Paraformer	Word Error Rate (WER)	4.95	—	Unverified
7	U2	Word Error Rate (WER)	4.72	—	Unverified
8	UMA	Word Error Rate (WER)	4.7	—	Unverified
9	Lightweight Transducer	Word Error Rate (WER)	4.31	—	Unverified
10	CIF-HKD With LM	Word Error Rate (WER)	4.1	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	Jasper 10x3	Word Error Rate (WER)	6.9	—	Unverified
2	CNN over RAW speech (wav)	Word Error Rate (WER)	5.6	—	Unverified
3	CTC-CRF 4gram-LM	Word Error Rate (WER)	3.79	—	Unverified
4	Deep Speech 2	Word Error Rate (WER)	3.6	—	Unverified
5	test-set on open vocabulary (i.e. harder), model = HMM-DNN + pNorm*	Word Error Rate (WER)	3.6	—	Unverified
6	Convolutional Speech Recognition	Word Error Rate (WER)	3.5	—	Unverified
7	TC-DNN-BLSTM-DNN	Word Error Rate (WER)	3.5	—	Unverified
8	Espresso	Word Error Rate (WER)	3.4	—	Unverified
9	CTC-CRF VGG-BLSTM	Word Error Rate (WER)	3.2	—	Unverified
10	Transformer with Relaxed Attention	Word Error Rate (WER)	3.19	—	Unverified