Speech-to-Text

Papers

Recently Added Most Hyped Most Active Needs Verification Most Verified

Showing 76–100 of 403 papers

Title	Date	Tasks	Status	Score
Optimizing Rare Word Accuracy in Direct Speech Translation with a Retrieval-and-Demonstration Approach	Sep 13, 2024	In-Context LearningRetrieval	CodeCode Available	5
OWSM-CTC: An Open Encoder-Only Speech Foundation Model for Speech Recognition, Translation, and Language Identification	Feb 20, 2024	Automatic Speech RecognitionAutomatic Speech Recognition (ASR)	CodeCode Available	5
An Empirical Study of Consistency Regularization for End-to-End Speech-to-Text Translation	Aug 28, 2023	Machine TranslationNMT	CodeCode Available	5
A wearable sensor vest for social humanoid robots with GPGPU, IoT, and modular software architecture	Jan 6, 2022	Speech-to-Texttext-to-speech	CodeCode Available	5
M-Adapter: Modality Adaptation for End-to-End Speech-to-Text Translation	Jul 3, 2022	DecoderSpeech-to-Text	CodeCode Available	5
Measuring the Effect of Transcription Noise on Downstream Language Understanding Tasks	Feb 19, 2025	Automatic Speech Recognitionspeech-recognition	CodeCode Available	5
MMSpeech: Multi-modal Multi-task Encoder-Decoder Pre-training for Speech Recognition	Nov 29, 2022	Automatic Speech RecognitionAutomatic Speech Recognition (ASR)	CodeCode Available	5
Automatic Quality Assessment for Speech Translation Using Joint ASR and MT Features	Sep 20, 2016	Speech-to-TextTranslation	CodeCode Available	5
Let's Give a Voice to Conversational Agents in Virtual Reality	Aug 4, 2023	Speech-to-Texttext-to-speech	CodeCode Available	5
Kurdish (Sorani) Speech to Text: Presenting an Experimental Dataset	Nov 29, 2019	Automatic Speech RecognitionAutomatic Speech Recognition (ASR)	CodeCode Available	5
CoVoSwitch: Machine Translation of Synthetic Code-Switched Text Based on Intonation Units	Jul 19, 2024	Machine TranslationSpeech-to-Text	CodeCode Available	5
Augmenting Librispeech with French Translations: A Multimodal Corpus for Direct Speech Translation Evaluation	Feb 9, 2018	Automatic Speech RecognitionAutomatic Speech Recognition (ASR)	CodeCode Available	5
LibriS2S: A German-English Speech-to-Speech Translation Corpus	Apr 22, 2022	Speech-to-Speech TranslationSpeech-to-Text	CodeCode Available	5
Investigating Zero-Shot Generalizability on Mandarin-English Code-Switched ASR and Speech-to-text Translation of Recent Foundation Models with Self-Supervision and Weak Supervision	Dec 30, 2023	Speech-to-TextSpeech-to-Text Translation	CodeCode Available	5
A Dataset for Speech Emotion Recognition in Greek Theatrical Plays	Mar 27, 2022	Automatic Speech RecognitionAutomatic Speech Recognition (ASR)	CodeCode Available	5
InstaIndoor and Multi-modal Deep Learning for Indoor Scene Recognition	Dec 23, 2021	BenchmarkingDeep Learning	CodeCode Available	5
Joint CTC-Attention based End-to-End Speech Recognition using Multi-task Learning	Sep 21, 2016	DecoderMulti-Task Learning	CodeCode Available	5
A Change of Heart: Improving Speech Emotion Recognition through Speech-to-Text Modality Conversion	Jul 21, 2023	Automatic Speech RecognitionAutomatic Speech Recognition (ASR)	CodeCode Available	5
Contextualized Translation of Automatically Segmented Speech	Aug 5, 2020	SegmentationSentence	CodeCode Available	5
Audio Adversarial Examples: Targeted Attacks on Speech-to-Text	Jan 5, 2018	Automatic Speech RecognitionAutomatic Speech Recognition (ASR)	CodeCode Available	5
Infusing Future Information into Monotonic Attention Through Language Models	Sep 7, 2021	Language ModelingLanguage Modelling	CodeCode Available	5
Listen and Speak Fairly: A Study on Semantic Gender Bias in Speech Integrated Large Language Models	Jul 9, 2024	coreference-resolutionCoreference Resolution	CodeCode Available	5
Attentively Embracing Noise for Robust Latent Representation in BERT	Dec 1, 2020	Automatic Speech RecognitionAutomatic Speech Recognition (ASR)	CodeCode Available	5
Finstreder: Simple and fast Spoken Language Understanding with Finite State Transducers using modern Speech-to-Text models	Jun 29, 2022	Intent ClassificationSlot Filling	CodeCode Available	5
Fleurs-SLU: A Massively Multilingual Benchmark for Spoken Language Understanding	Jan 10, 2025	Automatic Speech RecognitionClassification	CodeCode Available	5

Show:10 25 50

← PrevPage 4 of 17Next →

No leaderboard results yet.