Speech Recognition

Speech Recognition is the task of converting spoken language into text. It involves recognizing the words spoken in an audio recording and transcribing them into a written format. The goal is to accurately transcribe the speech in real-time or from recorded audio, taking into account factors such as accents, speaking speed, and background noise.

( Image credit: SpecAugment )

Papers

Recently Added Most Hyped Most Active Needs Verification Most Verified

Showing 3901–3950 of 6433 papers

Title	Date	Tasks	Status
Reduce and Reconstruct: ASR for Low-Resource Phonetic Languages	Oct 19, 2020	Speech Recognition	—Unverified
Towards Data Distillation for End-to-end Spoken Conversational Question Answering	Oct 18, 2020	Automatic Speech RecognitionAutomatic Speech Recognition (ASR)	—Unverified
Studying the Similarity of COVID-19 Sounds based on Correlation Analysis of MFCC	Oct 17, 2020	Automatic Speech RecognitionAutomatic Speech Recognition (ASR)	—Unverified
Multimodal Speech Recognition with Unstructured Audio Masking	Oct 16, 2020	8kAutomatic Speech Recognition	—Unverified
Non-intrusive speech intelligibility prediction using automatic speech recognition derived measures	Oct 16, 2020	Automatic Speech RecognitionAutomatic Speech Recognition (ASR)	—Unverified
Lightweight End-to-End Speech Recognition from Raw Audio Data Using Sinc-Convolutions	Oct 15, 2020	Automatic Speech RecognitionAutomatic Speech Recognition (ASR)	—Unverified
Exploiting Spectral Augmentation for Code-Switched Spoken Language Identification	Oct 14, 2020	Automatic Speech RecognitionAutomatic Speech Recognition (ASR)	—Unverified
The "Sound of Silence" in EEG -- Cognitive voice activity detection	Oct 12, 2020	Action DetectionActivity Detection	—Unverified
Improving Low Resource Code-switched ASR using Augmented Code-switched TTS	Oct 12, 2020	Automatic Speech RecognitionAutomatic Speech Recognition (ASR)	—Unverified
Dual-mode ASR: Unify and Improve Streaming ASR with Full-context Modeling	Oct 12, 2020	Automatic Speech RecognitionAutomatic Speech Recognition (ASR)	—Unverified
A Lightweight Speaker Recognition System Using Timbre Properties	Oct 12, 2020	GPUSpeaker Identification	—Unverified
fairseq S2T: Fast Speech-to-Text Modeling with fairseq	Oct 11, 2020	Machine TranslationMulti-Task Learning	CodeCode Available
A Clustering-Based Method for Automatic Educational Video Recommendation Using Deep Face-Features of Lecturers	Oct 9, 2020	ClusteringDiversity	—Unverified
Transfer Learning and SpecAugment applied to SSVEP Based BCI Classification	Oct 8, 2020	Brain Computer InterfaceClassification	—Unverified
Population Based Training for Data Augmentation and Regularization in Speech Recognition	Oct 8, 2020	Data Augmentationspeech-recognition	—Unverified
Domain Adversarial Neural Networks for Dysarthric Speech Recognition	Oct 7, 2020	Multi-Task Learningspeech-recognition	—Unverified
Transformer Transducer: One Model Unifying Streaming and Non-streaming Speech Recognition	Oct 7, 2020	speech-recognitionSpeech Recognition	—Unverified
WER we are and WER we think we are	Oct 7, 2020	Automatic Speech RecognitionAutomatic Speech Recognition (ASR)	—Unverified
The Sequence-to-Sequence Baseline for the Voice Conversion Challenge 2020: Cascading ASR and TTS	Oct 6, 2020	Automatic Speech RecognitionAutomatic Speech Recognition (ASR)	CodeCode Available
Swiss Parliaments Corpus, an Automatically Aligned Swiss German Speech to Standard German Text Corpus	Oct 6, 2020	Automatic Speech RecognitionAutomatic Speech Recognition (ASR)	CodeCode Available
Fine-Grained Grounding for Multimodal Speech Recognition	Oct 5, 2020	Automatic Speech RecognitionAutomatic Speech Recognition (ASR)	CodeCode Available
Explaining Deep Neural Networks	Oct 4, 2020	Decision Makingspeech-recognition	—Unverified
Transformers: State-of-the-Art Natural Language Processing	Oct 1, 2020	Image ClassificationObject Recognition	CodeCode Available
基于拼音约束联合学习的汉语语音识别(Chinese Speech Recognition Based on Pinyin Constraint Joint Learning)	Oct 1, 2020	speech-recognitionSpeech Recognition	—Unverified
End-to-End Spoken Language Understanding Without Full Transcripts	Sep 30, 2020	Decoderslot-filling	—Unverified
The design and implementation of Language Learning Chatbot with XAI using Ontology and Transfer Learning	Sep 29, 2020	ChatbotExplainable artificial intelligence	—Unverified
A Study on Lip Localization Techniques used for Lip reading from a Video	Sep 28, 2020	Automatic Speech RecognitionAutomatic Speech Recognition (ASR)	—Unverified
Estimation error analysis of deep learning on the regression problem on the variable exponent Besov space	Sep 23, 2020	Deep Learningspeech-recognition	—Unverified
FluentNet: End-to-End Detection of Speech Disfluency with Deep Learning	Sep 23, 2020	Automatic Speech RecognitionAutomatic Speech Recognition (ASR)	—Unverified
End-to-End Learning of Speech 2D Feature-Trajectory for Prosthetic Hands	Sep 22, 2020	Automatic Speech RecognitionAutomatic Speech Recognition (ASR)	CodeCode Available
An analysis of deep neural networks for predicting trends in time series data	Sep 16, 2020	Speech RecognitionTime Series	—Unverified
Monolingual Data Selection Analysis for English-Mandarin Hybrid Code-switching Speech Recognition	Sep 14, 2020	speech-recognitionSpeech Recognition	—Unverified
EasyASR: A Distributed Machine Learning Platform for End-to-end Automatic Speech Recognition	Sep 14, 2020	Automatic Speech RecognitionAutomatic Speech Recognition (ASR)	—Unverified
SWP-LeafNET: A novel multistage approach for plant leaf identification based on deep CNN	Sep 10, 2020	Deep LearningObject Recognition	—Unverified
Multi-modal embeddings using multi-task learning for emotion recognition	Sep 10, 2020	Automatic Speech RecognitionAutomatic Speech Recognition (ASR)	—Unverified
Unmanned Aerial Vehicle Control Through Domain-based Automatic Speech Recognition	Sep 9, 2020	Action RecognitionAutomatic Speech Recognition	—Unverified
An End-to-end Architecture of Online Multi-channel Speech Separation	Sep 7, 2020	speech-recognitionSpeech Recognition	—Unverified
Robust Spoken Language Understanding with RL-based Value Error Recovery	Sep 7, 2020	Automatic Speech RecognitionAutomatic Speech Recognition (ASR)	—Unverified
Silent Speech Interfaces for Speech Restoration: A Review	Sep 4, 2020	Automatic Speech RecognitionAutomatic Speech Recognition (ASR)	—Unverified
Voice Conversion by Cascading Automatic Speech Recognition and Text-to-Speech Synthesis with Prosody Transfer	Sep 3, 2020	Automatic Speech RecognitionAutomatic Speech Recognition (ASR)	—Unverified
Fine-grained Early Frequency Attention for Deep Speaker Representation Learning	Sep 3, 2020	Deep LearningEmotion Recognition	—Unverified
Estimating the Brittleness of AI: Safety Integrity Levels and the Need for Testing Out-Of-Distribution Performance	Sep 2, 2020	image-classificationImage Classification	—Unverified
Convolutional Speech Recognition with Pitch and Voice Quality Features	Sep 2, 2020	Automatic Speech RecognitionAutomatic Speech Recognition (ASR)	—Unverified
Survey of Machine Learning Accelerators	Sep 1, 2020	BIG-bench Machine Learningobject-detection	—Unverified
Innovative Pretrained-based Reranking Language Models for N-best Speech Recognition Lists	Sep 1, 2020	Rerankingspeech-recognition	—Unverified
Taiwanese Speech Recognition Based on Hybrid Deep Neural Network Architecture	Sep 1, 2020	speech-recognitionSpeech Recognition	—Unverified
Hearings and mishearings: decrypting the spoken word	Sep 1, 2020	Speech Recognition	—Unverified
A Preliminary Study on Leveraging Meta Learning Technique for Code-switching Speech Recognition	Sep 1, 2020	Meta-Learningspeech-recognition	—Unverified
Nepali Speech Recognition Using CNN, GRU and CTC	Sep 1, 2020	Nepali Speech Recognitionspeech-recognition	—Unverified
Multi-view Attention-based Speech Enhancement Model for Noise-robust Automatic Speech Recognition	Sep 1, 2020	Automatic Speech RecognitionAutomatic Speech Recognition (ASR)	—Unverified

Show:10 25 50

← PrevPage 79 of 129Next →

All datasets LibriSpeech test-clean LibriSpeech test-other Switchboard + Hub500 TIMIT AISHELL-1 WSJ eval92 Common Voice German swb_hub_500 WER fullSWBCH TUDA Common Voice French Common Voice Spanish MediaSpeech

Benchmark Results

#	Model	Metric	Claimed	Verified	Status
1	AmNet	Word Error Rate (WER)	8.6	—	Unverified
2	HMM-(SAT)GMM	Word Error Rate (WER)	8	—	Unverified
3	Local Prior Matching (Large Model)	Word Error Rate (WER)	7.19	—	Unverified
4	Snips	Word Error Rate (WER)	6.4	—	Unverified
5	Li-GRU	Word Error Rate (WER)	6.2	—	Unverified
6	HMM-DNN + pNorm*	Word Error Rate (WER)	5.5	—	Unverified
7	CTC + policy learning	Word Error Rate (WER)	5.42	—	Unverified
8	Deep Speech 2	Word Error Rate (WER)	5.33	—	Unverified
9	HMM-TDNN + iVectors	Word Error Rate (WER)	4.8	—	Unverified
10	Gated ConvNets	Word Error Rate (WER)	4.8	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	Local Prior Matching (Large Model)	Word Error Rate (WER)	20.84	—	Unverified
2	Snips	Word Error Rate (WER)	16.5	—	Unverified
3	Local Prior Matching (Large Model, ConvLM LM)	Word Error Rate (WER)	15.28	—	Unverified
4	Deep Speech 2	Word Error Rate (WER)	13.25	—	Unverified
5	TDNN + pNorm + speed up/down speech	Word Error Rate (WER)	12.5	—	Unverified
6	CTC-CRF 4gram-LM	Word Error Rate (WER)	10.65	—	Unverified
7	Convolutional Speech Recognition	Word Error Rate (WER)	10.47	—	Unverified
8	MT4SSL	Word Error Rate (WER)	9.6	—	Unverified
9	Jasper DR 10x5	Word Error Rate (WER)	8.79	—	Unverified
10	Espresso	Word Error Rate (WER)	8.7	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	Deep Speech	Percentage error	20	—	Unverified
2	DNN-HMM	Percentage error	18.5	—	Unverified
3	CD-DNN	Percentage error	16.1	—	Unverified
4	DNN	Percentage error	16	—	Unverified
5	DNN + Dropout	Percentage error	15	—	Unverified
6	DNN BMMI	Percentage error	12.9	—	Unverified
7	DNN MPE	Percentage error	12.9	—	Unverified
8	DNN MMI	Percentage error	12.9	—	Unverified
9	HMM-TDNN + pNorm + speed up/down speech	Percentage error	12.9	—	Unverified
10	HMM-DNN +sMBR	Percentage error	12.6	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	LSNN	Percentage error	33.2	—	Unverified
2	LAS multitask with indicators sampling	Percentage error	20.4	—	Unverified
3	Soft Monotonic Attention (ours, offline)	Percentage error	20.1	—	Unverified
4	QCNN-10L-256FM	Percentage error	19.64	—	Unverified
5	Bi-LSTM + skip connections w/ CTC	Percentage error	17.7	—	Unverified
6	Bi-RNN + Attention	Percentage error	17.6	—	Unverified
7	RNN-CRF on 24(x3) MFSC	Percentage error	17.3	—	Unverified
8	CNN in time and frequency + dropout, 17.6% w/o dropout	Percentage error	16.7	—	Unverified
9	Light Gated Recurrent Units	Percentage error	16.7	—	Unverified
10	GRU	Percentage error	16.6	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	Att	Word Error Rate (WER)	18.7	—	Unverified
2	CTC/Att	Word Error Rate (WER)	6.7	—	Unverified
3	BRA-E	Word Error Rate (WER)	6.63	—	Unverified
4	CTC-CRF 4gram-LM	Word Error Rate (WER)	6.34	—	Unverified
5	BAT	Word Error Rate (WER)	4.97	—	Unverified
6	Paraformer	Word Error Rate (WER)	4.95	—	Unverified
7	U2	Word Error Rate (WER)	4.72	—	Unverified
8	UMA	Word Error Rate (WER)	4.7	—	Unverified
9	Lightweight Transducer	Word Error Rate (WER)	4.31	—	Unverified
10	CIF-HKD With LM	Word Error Rate (WER)	4.1	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	Jasper 10x3	Word Error Rate (WER)	6.9	—	Unverified
2	CNN over RAW speech (wav)	Word Error Rate (WER)	5.6	—	Unverified
3	CTC-CRF 4gram-LM	Word Error Rate (WER)	3.79	—	Unverified
4	Deep Speech 2	Word Error Rate (WER)	3.6	—	Unverified
5	test-set on open vocabulary (i.e. harder), model = HMM-DNN + pNorm*	Word Error Rate (WER)	3.6	—	Unverified
6	Convolutional Speech Recognition	Word Error Rate (WER)	3.5	—	Unverified
7	TC-DNN-BLSTM-DNN	Word Error Rate (WER)	3.5	—	Unverified
8	Espresso	Word Error Rate (WER)	3.4	—	Unverified
9	CTC-CRF VGG-BLSTM	Word Error Rate (WER)	3.2	—	Unverified
10	Transformer with Relaxed Attention	Word Error Rate (WER)	3.19	—	Unverified