Speech Recognition

Speech Recognition is the task of converting spoken language into text. It involves recognizing the words spoken in an audio recording and transcribing them into a written format. The goal is to accurately transcribe the speech in real-time or from recorded audio, taking into account factors such as accents, speaking speed, and background noise.

( Image credit: SpecAugment )

Papers

Recently Added Most Hyped Most Active Needs Verification Most Verified

Showing 4451–4500 of 6433 papers

Title	Date	Tasks	Status
使用生成對抗網路於強健式自動語音辨識的應用(Exploiting Generative Adversarial Network for Robustness Automatic Speech Recognition)	Oct 1, 2019	Automatic Speech RecognitionAutomatic Speech Recognition (ASR)	—Unverified
Multilingual End-to-End Speech Translation	Oct 1, 2019	Automatic Speech RecognitionAutomatic Speech Recognition (ASR)	—Unverified
Domain Expansion in DNN-based Acoustic Models for Robust Speech Recognition	Oct 1, 2019	Robust Speech Recognitionspeech-recognition	—Unverified
探究端對端語音辨識於發音檢測與診斷(Investigating on Computer-Assisted Pronunciation Training Leveraging End-to-End Speech Recognition Techniques)	Oct 1, 2019	speech-recognitionSpeech Recognition	—Unverified
State-of-the-Art Speech Recognition Using Multi-Stream Self-Attention With Dilated 1D Convolutions	Oct 1, 2019	speech-recognitionSpeech Recognition	CodeCode Available
室內遠距離語音辨識實驗(Experiments on In-House Far-Field Speech Recognition)	Oct 1, 2019	speech-recognitionSpeech Recognition	—Unverified
Additional Shared Decoder on Siamese Multi-view Encoders for Learning Acoustic Word Embeddings	Oct 1, 2019	Decoderspeech-recognition	—Unverified
Spatio-Temporal Fusion Based Convolutional Sequence Learning for Lip Reading	Oct 1, 2019	LipreadingLip Reading	—Unverified
Neural Hybrid Recommender: Recommendation needs collaboration	Sep 29, 2019	Recommendation Systemsspeech-recognition	—Unverified
Language-Agnostic Syllabification with Neural Sequence Labeling	Sep 29, 2019	Chunkingnamed-entity-recognition	CodeCode Available
Self-Attention Transducers for End-to-End Speech Recognition	Sep 28, 2019	speech-recognitionSpeech Recognition	—Unverified
End-to-End Code-Switching ASR for Low-Resourced Language Pairs	Sep 27, 2019	Automatic Speech RecognitionAutomatic Speech Recognition (ASR)	—Unverified
Improving RNN Transducer Modeling for End-to-End Speech Recognition	Sep 26, 2019	Automatic Speech RecognitionAutomatic Speech Recognition (ASR)	CodeCode Available
Optimizing Speech Recognition For The Edge	Sep 26, 2019	Efficient Neural NetworkQuantization	—Unverified
Generating Robust Audio Adversarial Examples using Iterative Proportional Clipping	Sep 25, 2019	Automatic Speech RecognitionAutomatic Speech Recognition (ASR)	—Unverified
Speech Recognition with Augmented Synthesized Speech	Sep 25, 2019	Data AugmentationDiversity	—Unverified
Disentangling Speech and Non-Speech Components for Building Robust Acoustic Models from Found Data	Sep 25, 2019	speech-recognitionSpeech Recognition	CodeCode Available
Unsupervised Learning of Efficient and Robust Speech Representations	Sep 25, 2019	speech-recognitionSpeech Recognition	—Unverified
Self-Supervised Speech Recognition via Local Prior Matching	Sep 25, 2019	Language ModelingLanguage Modelling	—Unverified
AdaScale SGD: A Scale-Invariant Algorithm for Distributed Training	Sep 25, 2019	image-classificationImage Classification	—Unverified
Top-down training for neural networks	Sep 25, 2019	speech-recognitionSpeech Recognition	—Unverified
Improved Training Techniques for Online Neural Machine Translation	Sep 25, 2019	Automatic Speech RecognitionAutomatic Speech Recognition (ASR)	—Unverified
Breaking the Data Barrier: Towards Robust Speech Translation via Adversarial Stability Training	Sep 25, 2019	Automatic Speech RecognitionAutomatic Speech Recognition (ASR)	—Unverified
Understanding Semantics from Speech Through Pre-training	Sep 24, 2019	Automatic Speech RecognitionAutomatic Speech Recognition (ASR)	—Unverified
Improving OOV Detection and Resolution with External Language Models in Acoustic-to-Word ASR	Sep 22, 2019	Automatic Speech RecognitionAutomatic Speech Recognition (ASR)	—Unverified
Persian Signature Verification using Fully Convolutional Networks	Sep 20, 2019	speech-recognitionSpeech Recognition	—Unverified
A Random Gossip BMUF Process for Neural Language Modeling	Sep 19, 2019	GPULanguage Modeling	—Unverified
Self-Training for End-to-End Speech Recognition	Sep 19, 2019	DiversityLanguage Modeling	—Unverified
A Comparison of Hybrid and End-to-End Models for Syllable Recognition	Sep 19, 2019	Language ModelingLanguage Modelling	—Unverified
Code-Switched Language Models Using Neural Based Synthetic Data from Parallel Sentences	Sep 18, 2019	Automatic Speech RecognitionAutomatic Speech Recognition (ASR)	—Unverified
Emotion Filtering at the Edge	Sep 18, 2019	Privacy PreservingRaspberry Pi 4	—Unverified
Simultaneous Speech Recognition and Speaker Diarization for Monaural Dialogue Recordings with Target-Speaker Acoustic Models	Sep 17, 2019	Automatic Speech RecognitionAutomatic Speech Recognition (ASR)	—Unverified
NeMo: a toolkit for building AI applications using Neural Modules	Sep 14, 2019	Automatic Speech RecognitionAutomatic Speech Recognition (ASR)	—Unverified
Harnessing Indirect Training Data for End-to-End Automatic Speech Translation: Tricks of the Trade	Sep 14, 2019	Automatic Speech RecognitionAutomatic Speech Recognition (ASR)	—Unverified
Current Challenges in Spoken Dialogue Systems and Why They Are Critical for Those Living with Dementia	Sep 14, 2019	Diagnosticspeech-recognition	—Unverified
An Investigation Into On-device Personalization of End-to-end Automatic Speech Recognition Models	Sep 14, 2019	Automatic Speech RecognitionAutomatic Speech Recognition (ASR)	—Unverified
Integrating Source-channel and Attention-based Sequence-to-sequence Models for Speech Recognition	Sep 14, 2019	Automatic Speech RecognitionAutomatic Speech Recognition (ASR)	—Unverified
FfDL : A Flexible Multi-tenant Deep Learning Platform	Sep 14, 2019	Deep LearningDrug Design	—Unverified
A Comparative Study on Transformer vs RNN in Speech Applications	Sep 13, 2019	Automatic Speech RecognitionAutomatic Speech Recognition (ASR)	CodeCode Available
Recognition of Handwritten Digit using Convolutional Neural Network in Python with Tensorflow and Comparison of Performance for Various Hidden Layers	Sep 12, 2019	Deep LearningFace Recognition	—Unverified
Eligibility traces provide a data-inspired alternative to backpropagation through time	Sep 11, 2019	Diversityspeech-recognition	—Unverified
Large-Scale Multilingual Speech Recognition with a Streaming End-to-End Model	Sep 11, 2019	Automatic Speech RecognitionAutomatic Speech Recognition (ASR)	—Unverified
Language learning using Speech to Image retrieval	Sep 9, 2019	Grounded language learningImage Retrieval	—Unverified
Self-Teaching Networks	Sep 9, 2019	speech-recognitionSpeech Recognition	—Unverified
Neural Network-Based Modeling of Phonetic Durations	Sep 6, 2019	Automatic Speech RecognitionAutomatic Speech Recognition (ASR)	—Unverified
Learning Alignment for Multimodal Emotion Recognition from Speech	Sep 6, 2019	Emotion RecognitionMultimodal Emotion Recognition	CodeCode Available
Bandwidth Embeddings for Mixed-bandwidth Speech Recognition	Sep 5, 2019	speech-recognitionSpeech Recognition	CodeCode Available
An efficient and perceptually motivated auditory neural encoding and decoding algorithm for spiking neural networks	Sep 3, 2019	Benchmarkingspeech-recognition	—Unverified
Avaya Conversational Intelligence: A Real-Time System for Spoken Language Understanding in Human-Human Call Center Conversations	Sep 2, 2019	Abstractive Text SummarizationIntent Recognition	—Unverified
Motivations, challenges, and perspectives for the development of an Automatic Speech Recognition System for the under-resourced Ngiemboon Language	Sep 1, 2019	Automatic Speech RecognitionAutomatic Speech Recognition (ASR)	—Unverified

Show:10 25 50

← PrevPage 90 of 129Next →

All datasets LibriSpeech test-clean LibriSpeech test-other Switchboard + Hub500 TIMIT AISHELL-1 WSJ eval92 Common Voice German swb_hub_500 WER fullSWBCH TUDA Common Voice French Common Voice Spanish MediaSpeech

Benchmark Results

#	Model	Metric	Claimed	Verified	Status
1	AmNet	Word Error Rate (WER)	8.6	—	Unverified
2	HMM-(SAT)GMM	Word Error Rate (WER)	8	—	Unverified
3	Local Prior Matching (Large Model)	Word Error Rate (WER)	7.19	—	Unverified
4	Snips	Word Error Rate (WER)	6.4	—	Unverified
5	Li-GRU	Word Error Rate (WER)	6.2	—	Unverified
6	HMM-DNN + pNorm*	Word Error Rate (WER)	5.5	—	Unverified
7	CTC + policy learning	Word Error Rate (WER)	5.42	—	Unverified
8	Deep Speech 2	Word Error Rate (WER)	5.33	—	Unverified
9	HMM-TDNN + iVectors	Word Error Rate (WER)	4.8	—	Unverified
10	Gated ConvNets	Word Error Rate (WER)	4.8	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	Local Prior Matching (Large Model)	Word Error Rate (WER)	20.84	—	Unverified
2	Snips	Word Error Rate (WER)	16.5	—	Unverified
3	Local Prior Matching (Large Model, ConvLM LM)	Word Error Rate (WER)	15.28	—	Unverified
4	Deep Speech 2	Word Error Rate (WER)	13.25	—	Unverified
5	TDNN + pNorm + speed up/down speech	Word Error Rate (WER)	12.5	—	Unverified
6	CTC-CRF 4gram-LM	Word Error Rate (WER)	10.65	—	Unverified
7	Convolutional Speech Recognition	Word Error Rate (WER)	10.47	—	Unverified
8	MT4SSL	Word Error Rate (WER)	9.6	—	Unverified
9	Jasper DR 10x5	Word Error Rate (WER)	8.79	—	Unverified
10	Espresso	Word Error Rate (WER)	8.7	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	Deep Speech	Percentage error	20	—	Unverified
2	DNN-HMM	Percentage error	18.5	—	Unverified
3	CD-DNN	Percentage error	16.1	—	Unverified
4	DNN	Percentage error	16	—	Unverified
5	DNN + Dropout	Percentage error	15	—	Unverified
6	DNN BMMI	Percentage error	12.9	—	Unverified
7	DNN MPE	Percentage error	12.9	—	Unverified
8	DNN MMI	Percentage error	12.9	—	Unverified
9	HMM-TDNN + pNorm + speed up/down speech	Percentage error	12.9	—	Unverified
10	HMM-DNN +sMBR	Percentage error	12.6	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	LSNN	Percentage error	33.2	—	Unverified
2	LAS multitask with indicators sampling	Percentage error	20.4	—	Unverified
3	Soft Monotonic Attention (ours, offline)	Percentage error	20.1	—	Unverified
4	QCNN-10L-256FM	Percentage error	19.64	—	Unverified
5	Bi-LSTM + skip connections w/ CTC	Percentage error	17.7	—	Unverified
6	Bi-RNN + Attention	Percentage error	17.6	—	Unverified
7	RNN-CRF on 24(x3) MFSC	Percentage error	17.3	—	Unverified
8	CNN in time and frequency + dropout, 17.6% w/o dropout	Percentage error	16.7	—	Unverified
9	Light Gated Recurrent Units	Percentage error	16.7	—	Unverified
10	GRU	Percentage error	16.6	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	Att	Word Error Rate (WER)	18.7	—	Unverified
2	CTC/Att	Word Error Rate (WER)	6.7	—	Unverified
3	BRA-E	Word Error Rate (WER)	6.63	—	Unverified
4	CTC-CRF 4gram-LM	Word Error Rate (WER)	6.34	—	Unverified
5	BAT	Word Error Rate (WER)	4.97	—	Unverified
6	Paraformer	Word Error Rate (WER)	4.95	—	Unverified
7	U2	Word Error Rate (WER)	4.72	—	Unverified
8	UMA	Word Error Rate (WER)	4.7	—	Unverified
9	Lightweight Transducer	Word Error Rate (WER)	4.31	—	Unverified
10	CIF-HKD With LM	Word Error Rate (WER)	4.1	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	Jasper 10x3	Word Error Rate (WER)	6.9	—	Unverified
2	CNN over RAW speech (wav)	Word Error Rate (WER)	5.6	—	Unverified
3	CTC-CRF 4gram-LM	Word Error Rate (WER)	3.79	—	Unverified
4	Deep Speech 2	Word Error Rate (WER)	3.6	—	Unverified
5	test-set on open vocabulary (i.e. harder), model = HMM-DNN + pNorm*	Word Error Rate (WER)	3.6	—	Unverified
6	Convolutional Speech Recognition	Word Error Rate (WER)	3.5	—	Unverified
7	TC-DNN-BLSTM-DNN	Word Error Rate (WER)	3.5	—	Unverified
8	Espresso	Word Error Rate (WER)	3.4	—	Unverified
9	CTC-CRF VGG-BLSTM	Word Error Rate (WER)	3.2	—	Unverified
10	Transformer with Relaxed Attention	Word Error Rate (WER)	3.19	—	Unverified