Speech-to-Text

Papers

Recently Added Most Hyped Most Active Needs Verification Most Verified

Showing 51–100 of 403 papers

Title	Date	Tasks	Status	Hype
OpenOmni: A Collaborative Open Source Tool for Building Future-Ready Multimodal Conversational Agents	Aug 6, 2024	BenchmarkingRetrieval-augmented Generation	CodeCode Available	1
IESTAC: English-Italian Parallel Corpus for End-to-End Speech-to-Text Machine Translation	Nov 1, 2020	Dynamic Time WarpingMachine Translation	CodeCode Available	1
Fine-tuning Whisper on Low-Resource Languages for Real-World Applications	Dec 20, 2024	FormSentence	CodeCode Available	1
Indoor Air Quality Dataset with Activities of Daily Living in Low to Middle-income Communities	Jul 19, 2024	ImputationRecommendation Systems	CodeCode Available	1
End-to-End Single-Channel Speaker-Turn Aware Conversational Speech Translation	Nov 1, 2023	Automatic Speech Recognitionspeech-recognition	CodeCode Available	1
A^3T: Alignment-Aware Acoustic and Text Pretraining for Speech Synthesis and Editing	Mar 18, 2022	Representation LearningSpeaker Verification	CodeCode Available	1
Brilla AI: AI Contestant for the National Science and Maths Quiz	Mar 4, 2024	MathQuestion Answering	CodeCode Available	1
DUB: Discrete Unit Back-translation for Speech Translation	May 19, 2023	Machine TranslationSpeech-to-Text	CodeCode Available	1
Late reverberation suppression using U-nets	Oct 5, 2021	DecoderSpeech Dereverberation	CodeCode Available	1
End-to-end Speech Translation via Cross-modal Progressive Training	Apr 21, 2021	Machine TranslationSpeech-to-Text	CodeCode Available	1
Information-Transport-based Policy for Simultaneous Translation	Oct 22, 2022	Machine TranslationSpeech-to-Text	CodeCode Available	1
Investigating the Reordering Capability in CTC-based Non-Autoregressive End-to-End Speech Translation	May 11, 2021	Automatic Speech RecognitionAutomatic Speech Recognition (ASR)	CodeCode Available	1
Automatic speech recognition for the Nepali language using CNN, bidirectional LSTM and ResNet	Jun 25, 2024	Automatic Speech RecognitionAutomatic Speech Recognition (ASR)	CodeCode Available	1
Denial-of-Service Poisoning Attacks against Large Language Models	Oct 14, 2024	16kSpeech-to-Text	CodeCode Available	1
DuplexMamba: Enhancing Real-time Speech Conversations with Duplex and Streaming Capabilities	Feb 16, 2025	Automatic Speech RecognitionAutomatic Speech Recognition (ASR)	CodeCode Available	1
EdiTTS: Score-based Editing for Controllable Text-to-Speech	Oct 6, 2021	Speech SynthesisSpeech-to-Text	CodeCode Available	1
Challenges and Opportunities of Speech Recognition for Bengali Language	Sep 27, 2021	Automatic Speech RecognitionAutomatic Speech Recognition (ASR)	—Unverified	0
A Comparative Study on End-to-end Speech to Text Translation	Nov 20, 2019	Speech-to-TextSpeech-to-Text Translation	—Unverified	0
Can We Achieve High-quality Direct Speech-to-Speech Translation without Parallel Speech Data?	Jun 11, 2024	Contrastive LearningSpeech Synthesis	—Unverified	0
Application of Audio Fingerprinting Techniques for Real-Time Scalable Speech Retrieval and Speech Clusterization	Oct 29, 2024	GPURetrieval	—Unverified	0
A General Multi-Task Learning Framework to Leverage Text Data for Speech to Text Tasks	Oct 21, 2020	Automatic Speech RecognitionAutomatic Speech Recognition (ASR)	—Unverified	0
Developing automatic verbatim transcripts for international multilingual meetings: an end-to-end solution	Sep 27, 2023	Machine TranslationManagement	—Unverified	0
BTS: Back TranScription for Speech-to-Text Post-Processor using Text-to-Speech-to-Text	Aug 1, 2021	Automatic Speech RecognitionAutomatic Speech Recognition (ASR)	—Unverified	0
Application-Agnostic Language Modeling for On-Device ASR	May 16, 2023	Automatic Speech RecognitionLanguage Modeling	—Unverified	0
Bridging the Modality Gap for Speech-to-Text Translation	Oct 28, 2020	DecoderSpeech-to-Text	—Unverified	0
Bridging the gap between streaming and non-streaming ASR systems bydistilling ensembles of CTC and RNN-T models	Apr 25, 2021	Automatic Speech RecognitionAutomatic Speech Recognition (ASR)	—Unverified	0
Anonymizing Speech with Generative Adversarial Networks to Preserve Speaker Privacy	Oct 13, 2022	Generative Adversarial NetworkSpeaker anonymization	—Unverified	0
AfriSpeech-200: Pan-African Accented Speech Dataset for Clinical and General Domain ASR	Sep 30, 2023	Automatic Speech RecognitionAutomatic Speech Recognition (ASR)	—Unverified	0
Development of Natural Language Processing Tools for Cook Islands M\=aori	Dec 1, 2018	Machine TranslationPart-Of-Speech Tagging	—Unverified	0
Adversarial Attacks against Neural Networks in Audio Domain: Exploiting Principal Components	Jul 14, 2020	ClassificationGeneral Classification	—Unverified	0
BCN2BRNO: ASR System Fusion for Albayzin 2020 Speech to Text Challenge	Jan 29, 2021	Automatic Speech RecognitionAutomatic Speech Recognition (ASR)	—Unverified	0
Balancing Speech Understanding and Generation Using Continual Pre-training for Codec-based Speech LLM	Feb 24, 2025	Automatic Speech RecognitionLanguage Modeling	—Unverified	0
An Experiment on Speech-to-Text Translation Systems for Manipuri to English on Low Resource Setting	Dec 1, 2021	Automatic Speech RecognitionAutomatic Speech Recognition (ASR)	—Unverified	0
Design of a novel Korean learning application for efficient pronunciation correction	May 4, 2022	Sentencespeech-recognition	—Unverified	0
Data Efficient Direct Speech-to-Text Translation with Modality Agnostic Meta-Learning	Nov 11, 2019	Automatic Speech RecognitionAutomatic Speech Recognition (ASR)	—Unverified	0
A Dutch Dysarthric Speech Database for Individualized Speech Therapy Research	May 1, 2016	SentenceSpeech-to-Text	—Unverified	0
An Empirical Evaluation of AI-Powered Non-Player Characters' Perceived Realism and Performance in Virtual Reality Environments	Jul 14, 2025	Speech-to-Texttext-to-speech	—Unverified	0
A Voice Controlled E-Commerce Web Application	Nov 16, 2018	Medical Diagnosisspeech-recognition	—Unverified	0
A combined approach to the analysis of speech conversations in a contact center domain	Mar 12, 2022	Speech-to-Text	—Unverified	0
A Benchmarking on Cloud based Speech-To-Text Services for French Speech and Background Noise Effect	May 7, 2021	BenchmarkingSpeech-to-Text	—Unverified	0
Developing a Speech Recognition System for Recognizing Tonal Speech Signals Using a Convolutional Neural Network	Jun 17, 2022	speech-recognitionSpeech Recognition	—Unverified	0
Dialetto, ma Quanto Dialetto? Transcribing and Evaluating Dialects on a Continuum	Oct 18, 2024	Speech-to-Text	—Unverified	0
Multilingual Speech Translation with Efficient Finetuning of Pretrained Models	Oct 24, 2020	Cross-Lingual TransferDecoder	—Unverified	0
Cross-Modal Multi-Tasking for Speech-to-Text Translation via Hard Parameter Sharing	Sep 27, 2023	DecoderMachine Translation	—Unverified	0
CTC Alignments Improve Autoregressive Translation	Oct 11, 2022	Automatic Speech RecognitionAutomatic Speech Recognition (ASR)	—Unverified	0
CUIfy the XR: An Open-Source Package to Embed LLM-powered Conversational Agents in XR	Nov 7, 2024	Language ModellingLarge Language Model	—Unverified	0
Cross-modal Contrastive Learning for Speech Translation	Dec 17, 2021	Contrastive LearningRetrieval	—Unverified	0
DARTS: Dialectal Arabic Transcription System	Sep 26, 2019	Language ModelingLanguage Modelling	—Unverified	0
Analyzing Utility of Visual Context in Multimodal Speech Recognition Under Noisy Conditions	Jun 30, 2019	Automatic Speech RecognitionAutomatic Speech Recognition (ASR)	—Unverified	0
Deep Learning Based Natural Language Processing for End to End Speech Translation	Aug 9, 2018	Speech-to-TextTranslation	—Unverified	0

Show:10 25 50

← PrevPage 2 of 9Next →

No leaderboard results yet.