Speech-to-Text

Papers

Recently Added Most Hyped Most Active Needs Verification Most Verified

Showing 51–75 of 403 papers

Title	Date	Tasks	Status	Hype
A Survey on Speech Large Language Models	Oct 24, 2024	Automatic Speech RecognitionAutomatic Speech Recognition (ASR)	—Unverified	0
STTATTS: Unified Speech-To-Text And Text-To-Speech Model	Oct 24, 2024	Multi-Task Learningspeech-recognition	CodeCode Available	1
Contextual Biasing to Improve Domain-specific Custom Vocabulary Audio Transcription without Explicit Fine-Tuning of Whisper Model	Oct 24, 2024	speech-recognitionSpeech Recognition	—Unverified	0
Dialetto, ma Quanto Dialetto? Transcribing and Evaluating Dialects on a Continuum	Oct 18, 2024	Speech-to-Text	—Unverified	0
Titanic Calling: Low Bandwidth Video Conference from the Titanic Wreck	Oct 15, 2024	Speech-to-Text	—Unverified	0
Denial-of-Service Poisoning Attacks against Large Language Models	Oct 14, 2024	16kSpeech-to-Text	CodeCode Available	1
Unsupervised Data Validation Methods for Efficient Model Training	Oct 10, 2024	Data Augmentationmodel	—Unverified	0
Transducer Consistency Regularization for Speech to Text Applications	Oct 9, 2024	Model OptimizationSpeech-to-Text	—Unverified	0
Algorithms For Automatic Accentuation And Transcription Of Russian Texts In Speech Recognition Systems	Oct 3, 2024	Automatic Speech RecognitionAutomatic Speech Recognition (ASR)	—Unverified	0
Unveiling the Role of Pretraining in Direct Speech Translation	Sep 26, 2024	Automatic Speech RecognitionDecoder	—Unverified	0
How to Connect Speech Foundation Models and Large Language Models? What Matters and What Does Not	Sep 25, 2024	Automatic Speech Recognitionspeech-recognition	—Unverified	0
Toward Automated Clinical Transcriptions	Sep 20, 2024	Speech-to-Text	—Unverified	0
On the Feasibility of Fully AI-automated Vishing Attacks	Sep 20, 2024	Large Language ModelSpeech-to-Text	—Unverified	0
Ideal-LLM: Integrating Dual Encoders and Language-Adapted LLM for Multilingual Speech-to-Text	Sep 17, 2024	Automatic Speech RecognitionAutomatic Speech Recognition (ASR)	—Unverified	0
Optimizing Rare Word Accuracy in Direct Speech Translation with a Retrieval-and-Demonstration Approach	Sep 13, 2024	In-Context LearningRetrieval	CodeCode Available	0
Evaluation of real-time transcriptions using end-to-end ASR models	Sep 9, 2024	Action DetectionActivity Detection	—Unverified	0
LAST: Language Model Aware Speech Tokenization	Sep 5, 2024	Language ModelingLanguage Modelling	—Unverified	0
AI-Based IVR	Aug 20, 2024	Speech SynthesisSpeech-to-Text	—Unverified	0
CMU's IWSLT 2024 Simultaneous Speech Translation System	Aug 14, 2024	DecoderSpeech-to-Text	—Unverified	0
OpenOmni: A Collaborative Open Source Tool for Building Future-Ready Multimodal Conversational Agents	Aug 6, 2024	BenchmarkingRetrieval-augmented Generation	CodeCode Available	1
LLaST: Improved End-to-end Speech Translation System Leveraged by Large Language Models	Jul 22, 2024	Data AugmentationLanguage Modeling	CodeCode Available	1
CoVoSwitch: Machine Translation of Synthetic Code-Switched Text Based on Intonation Units	Jul 19, 2024	Machine TranslationSpeech-to-Text	CodeCode Available	0
Indoor Air Quality Dataset with Activities of Daily Living in Low to Middle-income Communities	Jul 19, 2024	ImputationRecommendation Systems	CodeCode Available	1
AI-Powered Immersive Assistance for Interactive Task Execution in Industrial Environments	Jul 12, 2024	Language ModelingLanguage Modelling	—Unverified	0
Evaluating Voice Command Pipelines for Drone Control: From STT and LLM to Direct Classification and Siamese Networks	Jul 10, 2024	Language ModelingLanguage Modelling	—Unverified	0

Show:10 25 50

← PrevPage 3 of 17Next →

No leaderboard results yet.