Speech-to-Text

Papers

Recently Added Most Hyped Most Active Needs Verification Most Verified

Showing 251–300 of 403 papers

Title	Date	Tasks	Status
VR-GPT: Visual Language Model for Intelligent Virtual Reality Applications	May 19, 2024	Language ModelingLanguage Modelling	—Unverified
WaBERT: A Low-resource End-to-end Model for Spoken Language Understanding and Speech-to-BERT Alignment	Apr 22, 2022	Automatic Speech RecognitionAutomatic Speech Recognition (ASR)	—Unverified
wav2vec and its current potential to Automatic Speech Recognition in German for the usage in Digital History: A comparative assessment of available ASR-technologies for the use in cultural heritage contexts	Mar 6, 2023	Automatic Speech RecognitionAutomatic Speech Recognition (ASR)	—Unverified
Wav-BERT: Cooperative Acoustic and Linguistic Representation Learning for Low-Resource Speech Recognition	Sep 19, 2021	Language ModelingLanguage Modelling	—Unverified
WER-BERT: Automatic WER Estimation with BERT in a Balanced Ordinal Classification Paradigm	Jan 14, 2021	Automatic Speech RecognitionAutomatic Speech Recognition (ASR)	—Unverified
What shall we do with an hour of data? Speech recognition for the un- and under-served languages of Common Voice	May 10, 2021	speech-recognitionSpeech Recognition	—Unverified
When End-to-End is Overkill: Rethinking Cascaded Speech-to-Text Translation	Feb 1, 2025	Automatic Speech RecognitionAutomatic Speech Recognition (ASR)	—Unverified
Which French speech recognition system for assistant robots?	Mar 4, 2022	Automatic Speech RecognitionAutomatic Speech Recognition (ASR)	—Unverified
Whisper Finetuning on Nepali Language	Nov 19, 2024	Automatic Speech RecognitionAutomatic Speech Recognition (ASR)	—Unverified
Whisper Turns Stronger: Augmenting Wav2Vec 2.0 for Superior ASR in Low-Resource Languages	Dec 31, 2024	Automatic Speech RecognitionData Augmentation	—Unverified
With One Voice: Composing a Travel Voice Assistant from Re-purposed Models	Aug 4, 2021	BIG-bench Machine Learningnamed-entity-recognition	—Unverified
Worldly Wise (WoW) - Cross-Lingual Knowledge Fusion for Fact-based Visual Spoken-Question Answering	Jun 1, 2021	Knowledge GraphsQuestion Answering	—Unverified
XTREME-S: Evaluating Cross-lingual Speech Representations	Mar 21, 2022	Representation LearningRetrieval	—Unverified
Learning Adaptive Segmentation Policy for End-to-End Simultaneous Translation	May 1, 2022	SegmentationSimultaneous Speech-to-Text Translation	—Unverified
Learnings from Technological Interventions in a Low Resource Language: A Case-Study on Gondi	Apr 21, 2020	Machine TranslationSpeech-to-Text	—Unverified
Leveraging Virtual Reality and AI Tutoring for Language Learning: A Case Study of a Virtual Campus Environment with OpenAI GPT Integration with Unity 3D	Nov 19, 2024	Speech-to-Texttext-to-speech	—Unverified
Leveraging Weakly Supervised Data to Improve End-to-End Speech-to-Text Translation	Nov 5, 2018	Automatic Speech RecognitionAutomatic Speech Recognition (ASR)	—Unverified
LIA-RAG: a system based on graphs and divergence of probabilities applied to Speech-To-Text Summarization	Jan 26, 2016	RAGSpeech-to-Text	—Unverified
LinTO Audio and Textual Datasets to Train and Evaluate Automatic Speech Recognition in Tunisian Arabic Dialect	Apr 3, 2025	Automatic Speech RecognitionAutomatic Speech Recognition (ASR)	—Unverified
LM-SPT: LM-Aligned Semantic Distillation for Speech Tokenization	Jun 20, 2025	Automatic Speech RecognitionAutomatic Speech Recognition (ASR)	—Unverified
Low-Rank and Sparse Model Merging for Multi-Lingual Speech Recognition and Translation	Feb 24, 2025	Automatic Speech RecognitionDiversity	—Unverified
Low-Resource Speech-to-Text Translation	Mar 24, 2018	DecoderMachine Translation	—Unverified
M3ST: Mix at Three Levels for Speech Translation	Dec 7, 2022	Data AugmentationDiversity	—Unverified
MAM: Masked Acoustic Modeling for End-to-End Speech-to-Text Translation	Oct 22, 2020	Automatic Speech RecognitionAutomatic Speech Recognition (ASR)	—Unverified
MinMo: A Multimodal Large Language Model for Seamless Voice Interaction	Jan 10, 2025	Instruction FollowingLanguage Modeling	—Unverified
MMSpeech: Multi-modal Multi-task Encoder-Decoder Pre-training for Speech Recognition	Nov 29, 2022	Automatic Speech RecognitionAutomatic Speech Recognition (ASR)	—Unverified
Modular Speech-to-Text Translation for Zero-Shot Cross-Modal Transfer	Oct 5, 2023	Speech-to-TextSpeech-to-Text Translation	—Unverified
Multi-Discriminator Sobolev Defense-GAN Against Adversarial Attacks for End-to-End Speech Systems	Mar 15, 2021	Speech-to-Text	—Unverified
Multilingual Speech Emotion Recognition With Multi-Gating Mechanism and Neural Architecture Search	Oct 31, 2022	Emotion RecognitionNeural Architecture Search	—Unverified
Multilingual Speech Translation from Efficient Finetuning of Pretrained Models	Aug 1, 2021	DecoderSpeech-to-Text	—Unverified
Multi-teacher Distillation for Multilingual Spelling Correction	Nov 20, 2023	Multilingual NLPSpeech-to-Text	—Unverified
NAIST Simultaneous Speech-to-Text Translation System for IWSLT 2022	May 1, 2022	SegmentationSimultaneous Speech-to-Text Translation	—Unverified
NAIST Simultaneous Speech Translation System for IWSLT 2024	Jun 30, 2024	Speech-to-Speech TranslationSpeech-to-Text	—Unverified
Named Entity Detection and Injection for Direct Speech Translation	Oct 21, 2022	SentenceSpeech-to-Text	—Unverified
Named Entity Recognition for Address Extraction in Speech-to-Text Transcriptions Using Synthetic Data	Feb 8, 2024	named-entity-recognitionNamed Entity Recognition	—Unverified
Natural Language Interactions in Autonomous Vehicles: Intent Detection and Slot Filling from Passenger Utterances	Apr 23, 2019	Automatic Speech RecognitionAutomatic Speech Recognition (ASR)	—Unverified
Natural Language Robot Programming: NLP integrated with autonomous robotic grasping	Apr 6, 2023	Robotic GraspingSpeech-to-Text	—Unverified
NaturalTurn: A Method to Segment Transcripts into Naturalistic Conversational Turns	Mar 22, 2024	Speech-to-Text	—Unverified
NeKo: Toward Post Recognition Generative Correction Large Language Models with Task-Oriented Experts	Nov 8, 2024	Mixture-of-ExpertsOptical Character Recognition (OCR)	—Unverified
Nexus: An Omni-Perceptive And -Interactive Model for Language, Audio, And Vision	Feb 26, 2025	Audio SynthesisAutomatic Speech Recognition	—Unverified
N-gram Boosting: Improving Contextual Biasing with Normalized N-gram Targets	Aug 4, 2023	Speech-to-Text	—Unverified
Noise in Speech-to-Text Voice: Analysis of Errors and Feasibility of Phonetic Similarity for Their Correction	Dec 1, 2013	Decision MakingSpeech Recognition	—Unverified
Numerically Grounded Language Models for Semantic Error Correction	Aug 14, 2016	Fact CheckingGrammatical Error Correction	—Unverified
Advancing STT for Low-Resource Real-World Speech	Jun 10, 2025	SentenceSpeech-to-Text	—Unverified
OAVA: the open audio-visual archives aggregator	Dec 16, 2023	Automatic Speech RecognitionAutomatic Speech Recognition (ASR)	—Unverified
On decoder-only architecture for speech-to-text and large language model integration	Jul 8, 2023	DecoderLanguage Modeling	—Unverified
Online Hybrid CTC/Attention End-to-End Automatic Speech Recognition Architecture	Jul 5, 2023	Automatic Speech RecognitionAutomatic Speech Recognition (ASR)	—Unverified
On the Design of Strategic Task Recommendations for Sustainable Crowdsourcing-Based Content Moderation	Jun 4, 2021	Recommendation SystemsSpeech-to-Text	—Unverified
On the Effects of Heterogeneous Data Sources on Speech-to-Text Foundation Models	Jun 13, 2024	Language ModelingLanguage Modelling	—Unverified
On the Feasibility of Fully AI-automated Vishing Attacks	Sep 20, 2024	Large Language ModelSpeech-to-Text	—Unverified

Show:10 25 50

← PrevPage 6 of 9Next →

No leaderboard results yet.