Speech Recognition

Speech Recognition is the task of converting spoken language into text. It involves recognizing the words spoken in an audio recording and transcribing them into a written format. The goal is to accurately transcribe the speech in real-time or from recorded audio, taking into account factors such as accents, speaking speed, and background noise.

( Image credit: SpecAugment )

Papers

Recently Added Most Hyped Most Active Needs Verification Most Verified

Showing 1201–1250 of 6433 papers

Title	Date	Tasks	Status	Hype
COSMIC: Data Efficient Instruction-tuning For Speech In-Context Learning	Nov 3, 2023	Automatic Speech RecognitionAutomatic Speech Recognition (ASR)	—Unverified	0
Server-side Rescoring of Spoken Entity-centric Knowledge Queries for Virtual Assistants	Nov 2, 2023	Automatic Speech RecognitionAutomatic Speech Recognition (ASR)	—Unverified	0
Multilingual DistilWhisper: Efficient Distillation of Multi-task Speech Models via Language-Specific Experts	Nov 2, 2023	Automatic Speech RecognitionAutomatic Speech Recognition (ASR)	CodeCode Available	1
Automatic Disfluency Detection from Untranscribed Speech	Nov 1, 2023	Automatic Speech RecognitionAutomatic Speech Recognition (ASR)	CodeCode Available	1
Distil-Whisper: Robust Knowledge Distillation via Large-Scale Pseudo Labelling	Nov 1, 2023	HallucinationKnowledge Distillation	CodeCode Available	4
End-to-End Single-Channel Speaker-Turn Aware Conversational Speech Translation	Nov 1, 2023	Automatic Speech Recognitionspeech-recognition	CodeCode Available	1
RIR-SF: Room Impulse Response Based Spatial Feature for Target Speech Recognition in Multi-Channel Multi-Speaker Scenarios	Oct 31, 2023	Automatic Speech RecognitionAutomatic Speech Recognition (ASR)	—Unverified	0
Combining Language Models For Specialized Domains: A Colorful Approach	Oct 30, 2023	Automatic Speech Recognitionspeech-recognition	—Unverified	0
MUST: A Multilingual Student-Teacher Learning approach for low-resource speech recognition	Oct 29, 2023	Knowledge Distillationspeech-recognition	—Unverified	0
MixRep: Hidden Representation Mixup for Low-Resource Speech Recognition	Oct 27, 2023	Data Augmentationspeech-recognition	CodeCode Available	0
TorchAudio 2.1: Advancing speech recognition, self-supervised learning, and audio processing components for PyTorch	Oct 27, 2023	Self-Supervised LearningSpeech Enhancement	CodeCode Available	4
Developing a Multilingual Dataset and Evaluation Metrics for Code-Switching: A Focus on Hong Kong's Polylingual Dynamics	Oct 27, 2023	Automatic Speech RecognitionAutomatic Speech Recognition (ASR)	CodeCode Available	1
Unified Segment-to-Segment Framework for Simultaneous Sequence Generation	Oct 27, 2023	Machine TranslationMulti-Task Learning	—Unverified	0
Dialect Adaptation and Data Augmentation for Low-Resource ASR: TalTech Systems for the MADASR 2023 Challenge	Oct 26, 2023	Automatic Speech RecognitionData Augmentation	—Unverified	0
UniX-Encoder: A Universal X-Channel Speech Encoder for Ad-Hoc Microphone Array Speech Processing	Oct 25, 2023	speaker-diarizationSpeaker Diarization	—Unverified	0
DISCO: A Large Scale Human Annotated Corpus for Disfluency Correction in Indo-European Languages	Oct 25, 2023	Automatic Speech RecognitionAutomatic Speech Recognition (ASR)	CodeCode Available	0
CL-MASR: A Continual Learning Benchmark for Multilingual ASR	Oct 25, 2023	Automatic Speech RecognitionAutomatic Speech Recognition (ASR)	CodeCode Available	1
Back Transcription as a Method for Evaluating Robustness of Natural Language Understanding Models to Speech Recognition Errors	Oct 25, 2023	en-US domain classificationen-US Intent Classification	CodeCode Available	0
ArTST: Arabic Text and Speech Transformer	Oct 25, 2023	Automatic Speech RecognitionAutomatic Speech Recognition (ASR)	CodeCode Available	1
How Much Context Does My Attention-Based ASR System Need?	Oct 24, 2023	speech-recognitionSpeech Recognition	CodeCode Available	1
Accented Speech Recognition With Accent-specific Codebooks	Oct 24, 2023	Accented Speech RecognitionAutomatic Speech Recognition	CodeCode Available	1
Modality Dropout for Multimodal Device Directed Speech Detection using Verbal and Non-Verbal Features	Oct 23, 2023	Automatic Speech RecognitionBinary Classification	—Unverified	0
Key Frame Mechanism For Efficient Conformer Based End-to-end Speech Recognition	Oct 23, 2023	Automatic Speech Recognitionspeech-recognition	CodeCode Available	0
Quantifying the Dialect Gap and its Correlates Across Languages	Oct 23, 2023	Automatic Speech RecognitionMachine Translation	—Unverified	0
Leveraging Timestamp Information for Serialized Joint Streaming Recognition and Translation	Oct 23, 2023	Automatic Speech RecognitionAutomatic Speech Recognition (ASR)	—Unverified	0
Delayed Memory Unit: Modelling Temporal Dependency Through Delay Gate	Oct 23, 2023	Computational EfficiencyGesture Recognition	CodeCode Available	0
Conversational Speech Recognition by Learning Audio-textual Cross-modal Contextual Representation	Oct 22, 2023	Automatic Speech RecognitionAutomatic Speech Recognition (ASR)	—Unverified	0
Intelligibility prediction with a pretrained noise-robust automatic speech recognition model	Oct 20, 2023	Automatic Speech RecognitionAutomatic Speech Recognition (ASR)	—Unverified	0
SALMONN: Towards Generic Hearing Abilities for Large Language Models	Oct 20, 2023	Audio captioningAutomatic Speech Recognition	CodeCode Available	3
The CHiME-7 Challenge: System Description and Performance of NeMo Team's DASR System	Oct 18, 2023	Automatic Speech Recognitionspeaker-diarization	—Unverified	0
Unintended Memorization in Large ASR Models, and How to Mitigate It	Oct 18, 2023	Automatic Speech RecognitionAutomatic Speech Recognition (ASR)	—Unverified	0
Audio-AdapterFusion: A Task-ID-free Approach for Efficient and Non-Destructive Multi-task Speech Recognition	Oct 17, 2023	speech-recognitionSpeech Recognition	—Unverified	0
Generative error correction for code-switching speech recognition using large language models	Oct 17, 2023	Automatic Speech RecognitionAutomatic Speech Recognition (ASR)	—Unverified	0
Iterative Shallow Fusion of Backward Language Model for End-to-End Speech Recognition	Oct 17, 2023	Automatic Speech RecognitionAutomatic Speech Recognition (ASR)	—Unverified	0
Multi-stage Large Language Model Correction for Speech Recognition	Oct 17, 2023	Language ModelingLanguage Modelling	—Unverified	0
Advanced accent/dialect identification and accentedness assessment with multi-embedding models and automatic speech recognition	Oct 17, 2023	Automatic Speech RecognitionAutomatic Speech Recognition (ASR)	—Unverified	0
Correction Focused Language Model Training for Speech Recognition	Oct 17, 2023	Automatic Speech RecognitionAutomatic Speech Recognition (ASR)	—Unverified	0
Zipformer: A faster and better encoder for automatic speech recognition	Oct 17, 2023	Automatic Speech RecognitionAutomatic Speech Recognition (ASR)	—Unverified	0
Long-form Simultaneous Speech Translation: Thesis Proposal	Oct 17, 2023	FormMachine Translation	—Unverified	0
VoxArabica: A Robust Dialect-Aware Arabic Speech Recognition System	Oct 17, 2023	Arabic Speech RecognitionAutomatic Speech Recognition	—Unverified	0
Detecting Speech Abnormalities with a Perceiver-based Sequence Classifier that Leverages a Universal Speech Model	Oct 16, 2023	Automatic Speech RecognitionAutomatic Speech Recognition (ASR)	—Unverified	0
Personalization of CTC-based End-to-End Speech Recognition Using Pronunciation-Driven Subword Tokenization	Oct 16, 2023	Automatic Speech Recognitionspeech-recognition	—Unverified	0
Optimized Tokenization for Transcribed Error Correction	Oct 16, 2023	speech-recognitionSpeech Recognition	—Unverified	0
End-to-end Multichannel Speaker-Attributed ASR: Speaker Guided Decoder and Input Feature Analysis	Oct 16, 2023	Automatic Speech RecognitionDecoder	—Unverified	0
Large Vocabulary Spontaneous Speech Recognition for Tigrigna	Oct 15, 2023	Automatic Speech RecognitionLanguage Modeling	—Unverified	0
Homophone Disambiguation Reveals Patterns of Context Mixing in Speech Transformers	Oct 15, 2023	Decoderspeech-recognition	CodeCode Available	0
Advancing Test-Time Adaptation in Wild Acoustic Test Settings	Oct 14, 2023	Automatic Speech RecognitionAutomatic Speech Recognition (ASR)	CodeCode Available	1
Improved Contextual Recognition In Automatic Speech Recognition Systems By Semantic Lattice Rescoring	Oct 14, 2023	Automatic Speech RecognitionAutomatic Speech Recognition (ASR)	—Unverified	0
SALM: Speech-augmented Language Model with In-context Learning for Speech Recognition and Translation	Oct 13, 2023	Automatic Speech RecognitionAutomatic Speech Recognition (ASR)	—Unverified	0
Fast Word Error Rate Estimation Using Self-Supervised Representations for Speech and Text	Oct 12, 2023	Automatic Speech RecognitionAutomatic Speech Recognition (ASR)	—Unverified	0

Show:10 25 50

← PrevPage 25 of 129Next →

All datasets LibriSpeech test-clean LibriSpeech test-other Switchboard + Hub500 TIMIT AISHELL-1 WSJ eval92 Common Voice German swb_hub_500 WER fullSWBCH TUDA Common Voice French Common Voice Spanish MediaSpeech

Benchmark Results

#	Model	Metric	Claimed	Verified	Status
1	AmNet	Word Error Rate (WER)	8.6	—	Unverified
2	HMM-(SAT)GMM	Word Error Rate (WER)	8	—	Unverified
3	Local Prior Matching (Large Model)	Word Error Rate (WER)	7.19	—	Unverified
4	Snips	Word Error Rate (WER)	6.4	—	Unverified
5	Li-GRU	Word Error Rate (WER)	6.2	—	Unverified
6	HMM-DNN + pNorm*	Word Error Rate (WER)	5.5	—	Unverified
7	CTC + policy learning	Word Error Rate (WER)	5.42	—	Unverified
8	Deep Speech 2	Word Error Rate (WER)	5.33	—	Unverified
9	Gated ConvNets	Word Error Rate (WER)	4.8	—	Unverified
10	HMM-TDNN + iVectors	Word Error Rate (WER)	4.8	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	Local Prior Matching (Large Model)	Word Error Rate (WER)	20.84	—	Unverified
2	Snips	Word Error Rate (WER)	16.5	—	Unverified
3	Local Prior Matching (Large Model, ConvLM LM)	Word Error Rate (WER)	15.28	—	Unverified
4	Deep Speech 2	Word Error Rate (WER)	13.25	—	Unverified
5	TDNN + pNorm + speed up/down speech	Word Error Rate (WER)	12.5	—	Unverified
6	CTC-CRF 4gram-LM	Word Error Rate (WER)	10.65	—	Unverified
7	Convolutional Speech Recognition	Word Error Rate (WER)	10.47	—	Unverified
8	MT4SSL	Word Error Rate (WER)	9.6	—	Unverified
9	Jasper DR 10x5	Word Error Rate (WER)	8.79	—	Unverified
10	Espresso	Word Error Rate (WER)	8.7	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	Deep Speech	Percentage error	20	—	Unverified
2	DNN-HMM	Percentage error	18.5	—	Unverified
3	CD-DNN	Percentage error	16.1	—	Unverified
4	DNN	Percentage error	16	—	Unverified
5	DNN + Dropout	Percentage error	15	—	Unverified
6	DNN BMMI	Percentage error	12.9	—	Unverified
7	HMM-TDNN + pNorm + speed up/down speech	Percentage error	12.9	—	Unverified
8	DNN MPE	Percentage error	12.9	—	Unverified
9	DNN MMI	Percentage error	12.9	—	Unverified
10	CNN + Bi-RNN + CTC (speech to letters), 25.9% WER if trainedonlyon SWB	Percentage error	12.6	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	LSNN	Percentage error	33.2	—	Unverified
2	LAS multitask with indicators sampling	Percentage error	20.4	—	Unverified
3	Soft Monotonic Attention (ours, offline)	Percentage error	20.1	—	Unverified
4	QCNN-10L-256FM	Percentage error	19.64	—	Unverified
5	Bi-LSTM + skip connections w/ CTC	Percentage error	17.7	—	Unverified
6	Bi-RNN + Attention	Percentage error	17.6	—	Unverified
7	RNN-CRF on 24(x3) MFSC	Percentage error	17.3	—	Unverified
8	CNN in time and frequency + dropout, 17.6% w/o dropout	Percentage error	16.7	—	Unverified
9	Light Gated Recurrent Units	Percentage error	16.7	—	Unverified
10	GRU	Percentage error	16.6	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	Att	Word Error Rate (WER)	18.7	—	Unverified
2	CTC/Att	Word Error Rate (WER)	6.7	—	Unverified
3	BRA-E	Word Error Rate (WER)	6.63	—	Unverified
4	CTC-CRF 4gram-LM	Word Error Rate (WER)	6.34	—	Unverified
5	BAT	Word Error Rate (WER)	4.97	—	Unverified
6	Paraformer	Word Error Rate (WER)	4.95	—	Unverified
7	U2	Word Error Rate (WER)	4.72	—	Unverified
8	UMA	Word Error Rate (WER)	4.7	—	Unverified
9	Lightweight Transducer	Word Error Rate (WER)	4.31	—	Unverified
10	CIF-HKD With LM	Word Error Rate (WER)	4.1	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	Jasper 10x3	Word Error Rate (WER)	6.9	—	Unverified
2	CNN over RAW speech (wav)	Word Error Rate (WER)	5.6	—	Unverified
3	CTC-CRF 4gram-LM	Word Error Rate (WER)	3.79	—	Unverified
4	Deep Speech 2	Word Error Rate (WER)	3.6	—	Unverified
5	test-set on open vocabulary (i.e. harder), model = HMM-DNN + pNorm*	Word Error Rate (WER)	3.6	—	Unverified
6	TC-DNN-BLSTM-DNN	Word Error Rate (WER)	3.5	—	Unverified
7	Convolutional Speech Recognition	Word Error Rate (WER)	3.5	—	Unverified
8	Espresso	Word Error Rate (WER)	3.4	—	Unverified
9	CTC-CRF VGG-BLSTM	Word Error Rate (WER)	3.2	—	Unverified
10	Transformer with Relaxed Attention	Word Error Rate (WER)	3.19	—	Unverified