Speech-to-Text

Papers

Recently Added Most Hyped Most Active Needs Verification Most Verified

Showing 26–50 of 403 papers

Title	Date	Tasks	Status	Hype
End-to-End Single-Channel Speaker-Turn Aware Conversational Speech Translation	Nov 1, 2023	Automatic Speech Recognitionspeech-recognition	CodeCode Available	1
Fine-tuning Whisper on Low-Resource Languages for Real-World Applications	Dec 20, 2024	FormSentence	CodeCode Available	1
OpenOmni: A Collaborative Open Source Tool for Building Future-Ready Multimodal Conversational Agents	Aug 6, 2024	BenchmarkingRetrieval-augmented Generation	CodeCode Available	1
JoeyS2T: Minimalistic Speech-to-Text Modeling with JoeyNMT	Oct 5, 2022	Automatic Speech RecognitionAutomatic Speech Recognition (ASR)	CodeCode Available	1
ArzEn-LLM: Code-Switched Egyptian Arabic-English Translation and Speech Recognition Using LLMs	Jun 26, 2024	ArzEn Code-switched Translation to araArzEn Code-switched Translation to eng	CodeCode Available	1
Denial-of-Service Poisoning Attacks against Large Language Models	Oct 14, 2024	16kSpeech-to-Text	CodeCode Available	1
Cross Attention Augmented Transducer Networks for Simultaneous Translation	Nov 1, 2021	Automatic Speech RecognitionAutomatic Speech Recognition (ASR)	CodeCode Available	1
DUB: Discrete Unit Back-translation for Speech Translation	May 19, 2023	Machine TranslationSpeech-to-Text	CodeCode Available	1
ComSL: A Composite Speech-Language Model for End-to-End Speech-to-Text Translation	May 24, 2023	GPULanguage Modeling	CodeCode Available	1
Common Voice: A Massively-Multilingual Speech Corpus	Dec 13, 2019	Automatic Speech RecognitionAutomatic Speech Recognition (ASR)	CodeCode Available	1
Cross-modal Contrastive Learning for Speech Translation	May 5, 2022	Contrastive LearningRetrieval	CodeCode Available	1
A Large-Scale Chinese Multimodal NER Dataset with Speech Clues	Aug 1, 2021	named-entity-recognitionNamed Entity Recognition	CodeCode Available	1
Deep Reinforcement Learning For Sequence to Sequence Models	May 24, 2018	Abstractive Text SummarizationCaption Generation	CodeCode Available	1
Benchmarking Large Multimodal Models against Common Corruptions	Jan 22, 2024	BenchmarkingImage to text	CodeCode Available	1
EdiTTS: Score-based Editing for Controllable Text-to-Speech	Oct 6, 2021	Speech SynthesisSpeech-to-Text	CodeCode Available	1
Audio Jailbreak Attacks: Exposing Vulnerabilities in SpeechGPT in a White-Box Framework	May 24, 2025	Adversarial AttackSpeech Tokenization	CodeCode Available	1
End-to-end Speech Translation via Cross-modal Progressive Training	Apr 21, 2021	Machine TranslationSpeech-to-Text	CodeCode Available	1
FlexiBO: A Decoupled Cost-Aware Multi-Objective Optimization Approach for Deep Neural Networks	Jan 18, 2020	Bayesian OptimizationObject Detection	CodeCode Available	1
CoVoST 2 and Massively Multilingual Speech-to-Text Translation	Jul 20, 2020	Machine Translationspeech-recognition	CodeCode Available	1
Indoor Air Quality Dataset with Activities of Daily Living in Low to Middle-income Communities	Jul 19, 2024	ImputationRecommendation Systems	CodeCode Available	1
Automatic speech recognition for the Nepali language using CNN, bidirectional LSTM and ResNet	Jun 25, 2024	Automatic Speech RecognitionAutomatic Speech Recognition (ASR)	CodeCode Available	1
Back Translation for Speech-to-text Translation Without Transcripts	May 15, 2023	Automatic Speech RecognitionAutomatic Speech Recognition (ASR)	CodeCode Available	1
A^3T: Alignment-Aware Acoustic and Text Pretraining for Speech Synthesis and Editing	Mar 18, 2022	Representation LearningSpeaker Verification	CodeCode Available	1
A Whisper transformer for audio captioning trained with synthetic captions and transfer learning	May 15, 2023	Audio captioningSpeech-to-Text	CodeCode Available	1
Clotho: An Audio Captioning Dataset	Oct 21, 2019	Audio captioningDiversity	CodeCode Available	1

Show:10 25 50

← PrevPage 2 of 17Next →

No leaderboard results yet.