Speech-to-Text

Papers

Recently Added Most Hyped Most Active Needs Verification Most Verified

Showing 151–200 of 403 papers

Title	Date	Tasks	Status
Direct Punjabi to English speech translation using discrete units	Feb 25, 2024	Speech-to-Speech TranslationSpeech-to-Text	—Unverified
Hands-Free VR	Feb 23, 2024	DiversityLanguage Modelling	—Unverified
OWSM-CTC: An Open Encoder-Only Speech Foundation Model for Speech Recognition, Translation, and Language Identification	Feb 20, 2024	Automatic Speech RecognitionAutomatic Speech Recognition (ASR)	CodeCode Available
Speech Translation with Speech Foundation Models and Large Language Models: What is There and What is Missing?	Feb 19, 2024	Speech-to-TextSpeech-to-Text Translation	—Unverified
Syllable based DNN-HMM Cantonese Speech to Text System	Feb 13, 2024	speech-recognitionSpeech Recognition	—Unverified
Careless Whisper: Speech-to-Text Hallucination Harms	Feb 12, 2024	HallucinationLanguage Modeling	CodeCode Available
Named Entity Recognition for Address Extraction in Speech-to-Text Transcriptions Using Synthetic Data	Feb 8, 2024	named-entity-recognitionNamed Entity Recognition	—Unverified
Digits micro-model for accurate and secure transactions	Feb 2, 2024	Automatic Speech RecognitionAutomatic Speech Recognition (ASR)	—Unverified
Streaming Sequence Transduction through Dynamic Compression	Feb 2, 2024	Automatic Speech RecognitionAutomatic Speech Recognition (ASR)	CodeCode Available
A Case Study on Filtering for End-to-End Speech Translation	Feb 2, 2024	Speech-to-Speech TranslationSpeech-to-Text	—Unverified
Prosody in Cascade and Direct Speech-to-Text Translation: a case study on Korean Wh-Phrases	Feb 1, 2024	speech-recognitionSpeech Recognition	—Unverified
Communication-Efficient Personalized Federated Learning for Speech-to-Text Tasks	Jan 18, 2024	Automatic Speech RecognitionAutomatic Speech Recognition (ASR)	—Unverified
FunnyNet-W: Multimodal Learning of Funny Moments in Videos in the Wild	Jan 8, 2024	Language ModellingLarge Language Model	CodeCode Available
Investigating Zero-Shot Generalizability on Mandarin-English Code-Switched ASR and Speech-to-text Translation of Recent Foundation Models with Self-Supervision and Weak Supervision	Dec 30, 2023	Speech-to-TextSpeech-to-Text Translation	CodeCode Available
OAVA: the open audio-visual archives aggregator	Dec 16, 2023	Automatic Speech RecognitionAutomatic Speech Recognition (ASR)	—Unverified
Revisiting the Entropy Semiring for Neural Speech Recognition	Dec 13, 2023	speech-recognitionSpeech Recognition	—Unverified
Efficient Monotonic Multihead Attention	Dec 7, 2023	Simultaneous Speech-to-Text TranslationSpeech-to-Text	—Unverified
End-to-End Speech-to-Text Translation: A Survey	Dec 2, 2023	Automatic Speech RecognitionAutomatic Speech Recognition (ASR)	—Unverified
Multi-teacher Distillation for Multilingual Spelling Correction	Nov 20, 2023	Multilingual NLPSpeech-to-Text	—Unverified
COSMIC: Data Efficient Instruction-tuning For Speech In-Context Learning	Nov 3, 2023	Automatic Speech RecognitionAutomatic Speech Recognition (ASR)	—Unverified
SALM: Speech-augmented Language Model with In-context Learning for Speech Recognition and Translation	Oct 13, 2023	Automatic Speech RecognitionAutomatic Speech Recognition (ASR)	CodeCode Available
Toward Joint Language Modeling for Speech Units and Text	Oct 12, 2023	Language ModelingLanguage Modelling	—Unverified
Improving Stability in Simultaneous Speech Translation: A Revision-Controllable Decoding Approach	Oct 6, 2023	Simultaneous Speech-to-Text TranslationSpeech-to-Text	—Unverified
Modular Speech-to-Text Translation for Zero-Shot Cross-Modal Transfer	Oct 5, 2023	Speech-to-TextSpeech-to-Text Translation	—Unverified
AfriSpeech-200: Pan-African Accented Speech Dataset for Clinical and General Domain ASR	Sep 30, 2023	Automatic Speech RecognitionAutomatic Speech Recognition (ASR)	—Unverified
Developing automatic verbatim transcripts for international multilingual meetings: an end-to-end solution	Sep 27, 2023	Machine TranslationManagement	—Unverified
Cross-Modal Multi-Tasking for Speech-to-Text Translation via Hard Parameter Sharing	Sep 27, 2023	DecoderMachine Translation	—Unverified
Deepfake audio as a data augmentation technique for training automatic speech to text transcription models	Sep 22, 2023	Data AugmentationFace Swapping	—Unverified
SpeechAlign: a Framework for Speech Translation Alignment Evaluation	Sep 20, 2023	Speech-to-TextSpeech-to-Text Translation	—Unverified
CoLLD: Contrastive Layer-to-layer Distillation for Compressing Multilingual Pre-trained Speech Encoders	Sep 14, 2023	Contrastive LearningKnowledge Distillation	—Unverified
PhantomSound: Black-Box, Query-Efficient Audio Adversarial Attack via Split-Second Phoneme Injection	Sep 13, 2023	Adversarial AttackSpeech-to-Text	—Unverified
An Empirical Study of Consistency Regularization for End-to-End Speech-to-Text Translation	Aug 28, 2023	Machine TranslationNMT	CodeCode Available
N-gram Boosting: Improving Contextual Biasing with Normalized N-gram Targets	Aug 4, 2023	Speech-to-Text	—Unverified
Let's Give a Voice to Conversational Agents in Virtual Reality	Aug 4, 2023	Speech-to-Texttext-to-speech	CodeCode Available
Code-Switched Urdu ASR for Noisy Telephonic Environment using Data Centric Approach with Hybrid HMM and CNN-TDNN	Jul 24, 2023	Automatic Speech RecognitionSentiment Analysis	CodeCode Available
A Change of Heart: Improving Speech Emotion Recognition through Speech-to-Text Modality Conversion	Jul 21, 2023	Automatic Speech RecognitionAutomatic Speech Recognition (ASR)	CodeCode Available
Improving RNN-Transducers with Acoustic LookAhead	Jul 11, 2023	HallucinationSpeech-to-Text	—Unverified
On decoder-only architecture for speech-to-text and large language model integration	Jul 8, 2023	DecoderLanguage Modeling	—Unverified
Performance Comparison of Pre-trained Models for Speech-to-Text in Turkish: Whisper-Small and Wav2Vec2-XLS-R-300M	Jul 6, 2023	Speech-to-Text	—Unverified
Online Hybrid CTC/Attention End-to-End Automatic Speech Recognition Architecture	Jul 5, 2023	Automatic Speech RecognitionAutomatic Speech Recognition (ASR)	—Unverified
AudioPaLM: A Large Language Model That Can Speak and Listen	Jun 22, 2023	Language ModelingLanguage Modelling	—Unverified
Recent Advances in Direct Speech-to-text Translation	Jun 20, 2023	Data AugmentationDecoder	—Unverified
Open Brain AI. Automatic Language Assessment	Jun 11, 2023	Speech-to-Text	—Unverified
Speech-to-Text Adapter and Speech-to-Entity Retriever Augmented LLMs for Speech Understanding	Jun 8, 2023	dialog state trackingLanguage Modeling	—Unverified
Towards End-to-end Speech-to-text Summarization	Jun 6, 2023	Abstractive Text SummarizationSpeech-to-Text	CodeCode Available
Improved Cross-Lingual Transfer Learning For Automatic Speech Translation	Jun 1, 2023	automatic-speech-translationCross-Lingual Transfer	—Unverified
Strategies for improving low resource speech to text translation relying on pre-trained ASR models	May 31, 2023	Automatic Speech RecognitionDecoder	—Unverified
STT4SG-350: A Speech Corpus for All Swiss German Dialect Regions	May 30, 2023	AllAutomatic Speech Recognition	—Unverified
CIF-PT: Bridging Speech and Text Representations for Spoken Language Understanding via Continuous Integrate-and-Fire Pre-Training	May 27, 2023	intent-classificationIntent Classification	—Unverified
VioLA: Unified Codec Language Models for Speech Recognition, Synthesis, and Translation	May 25, 2023	DecoderLanguage Modeling	—Unverified

Show:10 25 50

← PrevPage 4 of 9Next →

No leaderboard results yet.