Speech Recognition

Speech Recognition is the task of converting spoken language into text. It involves recognizing the words spoken in an audio recording and transcribing them into a written format. The goal is to accurately transcribe the speech in real-time or from recorded audio, taking into account factors such as accents, speaking speed, and background noise.

( Image credit: SpecAugment )

Papers

Recently Added Most Hyped Most Active Needs Verification Most Verified

Showing 1651–1700 of 6433 papers

Title	Date	Tasks	Status
A Quantitative Approach to Understand Self-Supervised Models as Cross-lingual Feature Extractors	Nov 27, 2023	Automatic Speech RecognitionAutomatic Speech Recognition (ASR)	CodeCode Available
Multilingual self-supervised speech representations improve the speech recognition of low-resource African languages with codeswitching	Nov 25, 2023	Language ModelingLanguage Modelling	—Unverified
Weak Alignment Supervision from Hybrid Model Improves End-to-end ASR	Nov 24, 2023	Automatic Speech Recognitionspeech-recognition	—Unverified
Analysis of Visual Features for Continuous Lipreading in Spanish	Nov 21, 2023	Lipreadingspeech-recognition	—Unverified
Speaker-Adapted End-to-End Visual Speech Recognition for Continuous Spanish	Nov 21, 2023	speech-recognitionSpeech Recognition	—Unverified
Soft Random Sampling: A Theoretical and Empirical Analysis	Nov 21, 2023	Automatic Speech Recognitionspeech-recognition	—Unverified
Investigating Weight-Perturbed Deep Neural Networks With Application in Iris Presentation Attack Detection	Nov 21, 2023	image-classificationImage Classification	CodeCode Available
LIP-RTVE: An Audiovisual Database for Continuous Spanish in the Wild	Nov 21, 2023	Automatic Speech Recognitionspeech-recognition	CodeCode Available
How does end-to-end speech recognition training impact speech enhancement artifacts?	Nov 20, 2023	Automatic Speech RecognitionAutomatic Speech Recognition (ASR)	—Unverified
App for Resume-Based Job Matching with Speech Interviews and Grammar Analysis: A Review	Nov 20, 2023	Automatic Speech Recognitionspeech-recognition	—Unverified
Beyond Boundaries: A Comprehensive Survey of Transferable Attacks on AI Systems	Nov 20, 2023	Autonomous DrivingAutonomous Vehicles	—Unverified
ML-LMCL: Mutual Learning and Large-Margin Contrastive Learning for Improving ASR Robustness in Spoken Language Understanding	Nov 19, 2023	Automatic Speech RecognitionAutomatic Speech Recognition (ASR)	—Unverified
Label-Synchronous Neural Transducer for Adaptable Online E2E Speech Recognition	Nov 19, 2023	Automatic Speech RecognitionAutomatic Speech Recognition (ASR)	—Unverified
GhostVec: A New Threat to Speaker Privacy of End-to-End Speech Recognition System	Nov 17, 2023	DecoderPrivacy Preserving	—Unverified
Improving Large-scale Deep Biasing with Phoneme Features and Text-only Data in Streaming Transducer	Nov 15, 2023	Automatic Speech RecognitionAutomatic Speech Recognition (ASR)	—Unverified
Multi-channel Conversational Speaker Separation via Neural Diarization	Nov 15, 2023	Automatic Speech RecognitionAutomatic Speech Recognition (ASR)	—Unverified
Investigating the Emergent Audio Classification Ability of ASR Foundation Models	Nov 15, 2023	Audio ClassificationDecoder	CodeCode Available
Retrieve and Copy: Scaling ASR Personalization to Large Catalogs	Nov 14, 2023	Automatic Speech RecognitionAutomatic Speech Recognition (ASR)	—Unverified
Enhanced Generative Adversarial Networks for Unseen Word Generation from EEG Signals	Nov 14, 2023	Brain Computer InterfaceData Augmentation	—Unverified
On the Effectiveness of ASR Representations in Real-world Noisy Speech Emotion Recognition	Nov 13, 2023	Automatic Speech RecognitionAutomatic Speech Recognition (ASR)	—Unverified
ChatGPT in the context of precision agriculture data analytics	Nov 10, 2023	Language Modellingspeech-recognition	CodeCode Available
Whisper in Focus: Enhancing Stuttered Speech Classification with Encoder Layer Optimization	Nov 9, 2023	speech-recognitionSpeech Recognition	—Unverified
Towards End-to-End Spoken Grammatical Error Correction	Nov 9, 2023	Grammatical Error Correctionspeech-recognition	—Unverified
1SPU: 1-step Speech Processing Unit	Nov 8, 2023	Automatic Speech RecognitionAutomatic Speech Recognition (ASR)	—Unverified
A comparative analysis between Conformer-Transducer, Whisper, and wav2vec2 for improving the child speech recognition	Nov 7, 2023	Automatic Speech RecognitionAutomatic Speech Recognition (ASR)	CodeCode Available
Fine-tuning convergence model in Bengali speech recognition	Nov 7, 2023	Automatic Speech Recognitionmodel	—Unverified
Pseudo-Labeling for Domain-Agnostic Bangla Automatic Speech Recognition	Nov 6, 2023	Automatic Speech RecognitionAutomatic Speech Recognition (ASR)	CodeCode Available
COSMIC: Data Efficient Instruction-tuning For Speech In-Context Learning	Nov 3, 2023	Automatic Speech RecognitionAutomatic Speech Recognition (ASR)	—Unverified
Server-side Rescoring of Spoken Entity-centric Knowledge Queries for Virtual Assistants	Nov 2, 2023	Automatic Speech RecognitionAutomatic Speech Recognition (ASR)	—Unverified
RIR-SF: Room Impulse Response Based Spatial Feature for Target Speech Recognition in Multi-Channel Multi-Speaker Scenarios	Oct 31, 2023	Automatic Speech RecognitionAutomatic Speech Recognition (ASR)	—Unverified
Combining Language Models For Specialized Domains: A Colorful Approach	Oct 30, 2023	Automatic Speech Recognitionspeech-recognition	—Unverified
MUST: A Multilingual Student-Teacher Learning approach for low-resource speech recognition	Oct 29, 2023	Knowledge Distillationspeech-recognition	—Unverified
MixRep: Hidden Representation Mixup for Low-Resource Speech Recognition	Oct 27, 2023	Data Augmentationspeech-recognition	CodeCode Available
Unified Segment-to-Segment Framework for Simultaneous Sequence Generation	Oct 27, 2023	Machine TranslationMulti-Task Learning	—Unverified
Dialect Adaptation and Data Augmentation for Low-Resource ASR: TalTech Systems for the MADASR 2023 Challenge	Oct 26, 2023	Automatic Speech RecognitionData Augmentation	—Unverified
Back Transcription as a Method for Evaluating Robustness of Natural Language Understanding Models to Speech Recognition Errors	Oct 25, 2023	en-US domain classificationen-US Intent Classification	CodeCode Available
UniX-Encoder: A Universal X-Channel Speech Encoder for Ad-Hoc Microphone Array Speech Processing	Oct 25, 2023	speaker-diarizationSpeaker Diarization	—Unverified
DISCO: A Large Scale Human Annotated Corpus for Disfluency Correction in Indo-European Languages	Oct 25, 2023	Automatic Speech RecognitionAutomatic Speech Recognition (ASR)	CodeCode Available
Quantifying the Dialect Gap and its Correlates Across Languages	Oct 23, 2023	Automatic Speech RecognitionMachine Translation	—Unverified
Leveraging Timestamp Information for Serialized Joint Streaming Recognition and Translation	Oct 23, 2023	Automatic Speech RecognitionAutomatic Speech Recognition (ASR)	—Unverified
Delayed Memory Unit: Modelling Temporal Dependency Through Delay Gate	Oct 23, 2023	Computational EfficiencyGesture Recognition	CodeCode Available
Key Frame Mechanism For Efficient Conformer Based End-to-end Speech Recognition	Oct 23, 2023	Automatic Speech Recognitionspeech-recognition	CodeCode Available
Modality Dropout for Multimodal Device Directed Speech Detection using Verbal and Non-Verbal Features	Oct 23, 2023	Automatic Speech RecognitionBinary Classification	—Unverified
Conversational Speech Recognition by Learning Audio-textual Cross-modal Contextual Representation	Oct 22, 2023	Automatic Speech RecognitionAutomatic Speech Recognition (ASR)	—Unverified
Intelligibility prediction with a pretrained noise-robust automatic speech recognition model	Oct 20, 2023	Automatic Speech RecognitionAutomatic Speech Recognition (ASR)	—Unverified
Unintended Memorization in Large ASR Models, and How to Mitigate It	Oct 18, 2023	Automatic Speech RecognitionAutomatic Speech Recognition (ASR)	—Unverified
The CHiME-7 Challenge: System Description and Performance of NeMo Team's DASR System	Oct 18, 2023	Automatic Speech Recognitionspeaker-diarization	—Unverified
Multi-stage Large Language Model Correction for Speech Recognition	Oct 17, 2023	Language ModelingLanguage Modelling	—Unverified
Audio-AdapterFusion: A Task-ID-free Approach for Efficient and Non-Destructive Multi-task Speech Recognition	Oct 17, 2023	speech-recognitionSpeech Recognition	—Unverified
VoxArabica: A Robust Dialect-Aware Arabic Speech Recognition System	Oct 17, 2023	Arabic Speech RecognitionAutomatic Speech Recognition	—Unverified

Show:10 25 50

← PrevPage 34 of 129Next →

All datasets LibriSpeech test-clean LibriSpeech test-other Switchboard + Hub500 TIMIT AISHELL-1 WSJ eval92 Common Voice German swb_hub_500 WER fullSWBCH TUDA Common Voice French Common Voice Spanish MediaSpeech

Benchmark Results

#	Model	Metric	Claimed	Verified	Status
1	AmNet	Word Error Rate (WER)	8.6	—	Unverified
2	HMM-(SAT)GMM	Word Error Rate (WER)	8	—	Unverified
3	Local Prior Matching (Large Model)	Word Error Rate (WER)	7.19	—	Unverified
4	Snips	Word Error Rate (WER)	6.4	—	Unverified
5	Li-GRU	Word Error Rate (WER)	6.2	—	Unverified
6	HMM-DNN + pNorm*	Word Error Rate (WER)	5.5	—	Unverified
7	CTC + policy learning	Word Error Rate (WER)	5.42	—	Unverified
8	Deep Speech 2	Word Error Rate (WER)	5.33	—	Unverified
9	HMM-TDNN + iVectors	Word Error Rate (WER)	4.8	—	Unverified
10	Gated ConvNets	Word Error Rate (WER)	4.8	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	Local Prior Matching (Large Model)	Word Error Rate (WER)	20.84	—	Unverified
2	Snips	Word Error Rate (WER)	16.5	—	Unverified
3	Local Prior Matching (Large Model, ConvLM LM)	Word Error Rate (WER)	15.28	—	Unverified
4	Deep Speech 2	Word Error Rate (WER)	13.25	—	Unverified
5	TDNN + pNorm + speed up/down speech	Word Error Rate (WER)	12.5	—	Unverified
6	CTC-CRF 4gram-LM	Word Error Rate (WER)	10.65	—	Unverified
7	Convolutional Speech Recognition	Word Error Rate (WER)	10.47	—	Unverified
8	MT4SSL	Word Error Rate (WER)	9.6	—	Unverified
9	Jasper DR 10x5	Word Error Rate (WER)	8.79	—	Unverified
10	Espresso	Word Error Rate (WER)	8.7	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	Deep Speech	Percentage error	20	—	Unverified
2	DNN-HMM	Percentage error	18.5	—	Unverified
3	CD-DNN	Percentage error	16.1	—	Unverified
4	DNN	Percentage error	16	—	Unverified
5	DNN + Dropout	Percentage error	15	—	Unverified
6	DNN BMMI	Percentage error	12.9	—	Unverified
7	DNN MPE	Percentage error	12.9	—	Unverified
8	DNN MMI	Percentage error	12.9	—	Unverified
9	HMM-TDNN + pNorm + speed up/down speech	Percentage error	12.9	—	Unverified
10	HMM-DNN +sMBR	Percentage error	12.6	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	LSNN	Percentage error	33.2	—	Unverified
2	LAS multitask with indicators sampling	Percentage error	20.4	—	Unverified
3	Soft Monotonic Attention (ours, offline)	Percentage error	20.1	—	Unverified
4	QCNN-10L-256FM	Percentage error	19.64	—	Unverified
5	Bi-LSTM + skip connections w/ CTC	Percentage error	17.7	—	Unverified
6	Bi-RNN + Attention	Percentage error	17.6	—	Unverified
7	RNN-CRF on 24(x3) MFSC	Percentage error	17.3	—	Unverified
8	CNN in time and frequency + dropout, 17.6% w/o dropout	Percentage error	16.7	—	Unverified
9	Light Gated Recurrent Units	Percentage error	16.7	—	Unverified
10	GRU	Percentage error	16.6	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	Att	Word Error Rate (WER)	18.7	—	Unverified
2	CTC/Att	Word Error Rate (WER)	6.7	—	Unverified
3	BRA-E	Word Error Rate (WER)	6.63	—	Unverified
4	CTC-CRF 4gram-LM	Word Error Rate (WER)	6.34	—	Unverified
5	BAT	Word Error Rate (WER)	4.97	—	Unverified
6	Paraformer	Word Error Rate (WER)	4.95	—	Unverified
7	U2	Word Error Rate (WER)	4.72	—	Unverified
8	UMA	Word Error Rate (WER)	4.7	—	Unverified
9	Lightweight Transducer	Word Error Rate (WER)	4.31	—	Unverified
10	CIF-HKD With LM	Word Error Rate (WER)	4.1	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	Jasper 10x3	Word Error Rate (WER)	6.9	—	Unverified
2	CNN over RAW speech (wav)	Word Error Rate (WER)	5.6	—	Unverified
3	CTC-CRF 4gram-LM	Word Error Rate (WER)	3.79	—	Unverified
4	Deep Speech 2	Word Error Rate (WER)	3.6	—	Unverified
5	test-set on open vocabulary (i.e. harder), model = HMM-DNN + pNorm*	Word Error Rate (WER)	3.6	—	Unverified
6	Convolutional Speech Recognition	Word Error Rate (WER)	3.5	—	Unverified
7	TC-DNN-BLSTM-DNN	Word Error Rate (WER)	3.5	—	Unverified
8	Espresso	Word Error Rate (WER)	3.4	—	Unverified
9	CTC-CRF VGG-BLSTM	Word Error Rate (WER)	3.2	—	Unverified
10	Transformer with Relaxed Attention	Word Error Rate (WER)	3.19	—	Unverified