Speech-to-Text

Papers

Recently Added Most Hyped Most Active Needs Verification Most Verified

Showing 126–150 of 403 papers

Title	Date	Tasks	Status	Hype
COSMIC: Data Efficient Instruction-tuning For Speech In-Context Learning	Nov 3, 2023	Automatic Speech RecognitionAutomatic Speech Recognition (ASR)	—Unverified	0
End-to-End Single-Channel Speaker-Turn Aware Conversational Speech Translation	Nov 1, 2023	Automatic Speech Recognitionspeech-recognition	CodeCode Available	1
SALM: Speech-augmented Language Model with In-context Learning for Speech Recognition and Translation	Oct 13, 2023	Automatic Speech RecognitionAutomatic Speech Recognition (ASR)	CodeCode Available	0
Toward Joint Language Modeling for Speech Units and Text	Oct 12, 2023	Language ModelingLanguage Modelling	—Unverified	0
LauraGPT: Listen, Attend, Understand, and Regenerate Audio with GPT	Oct 7, 2023	Audio captioningAutomatic Speech Recognition	CodeCode Available	2
Improving Stability in Simultaneous Speech Translation: A Revision-Controllable Decoding Approach	Oct 6, 2023	Simultaneous Speech-to-Text TranslationSpeech-to-Text	—Unverified	0
Modular Speech-to-Text Translation for Zero-Shot Cross-Modal Transfer	Oct 5, 2023	Speech-to-TextSpeech-to-Text Translation	—Unverified	0
AfriSpeech-200: Pan-African Accented Speech Dataset for Clinical and General Domain ASR	Sep 30, 2023	Automatic Speech RecognitionAutomatic Speech Recognition (ASR)	—Unverified	0
Cross-Modal Multi-Tasking for Speech-to-Text Translation via Hard Parameter Sharing	Sep 27, 2023	DecoderMachine Translation	—Unverified	0
Developing automatic verbatim transcripts for international multilingual meetings: an end-to-end solution	Sep 27, 2023	Machine TranslationManagement	—Unverified	0
Deepfake audio as a data augmentation technique for training automatic speech to text transcription models	Sep 22, 2023	Data AugmentationFace Swapping	—Unverified	0
SpeechAlign: a Framework for Speech Translation Alignment Evaluation	Sep 20, 2023	Speech-to-TextSpeech-to-Text Translation	—Unverified	0
CoLLD: Contrastive Layer-to-layer Distillation for Compressing Multilingual Pre-trained Speech Encoders	Sep 14, 2023	Contrastive LearningKnowledge Distillation	—Unverified	0
PhantomSound: Black-Box, Query-Efficient Audio Adversarial Attack via Split-Second Phoneme Injection	Sep 13, 2023	Adversarial AttackSpeech-to-Text	—Unverified	0
An Empirical Study of Consistency Regularization for End-to-End Speech-to-Text Translation	Aug 28, 2023	Machine TranslationNMT	CodeCode Available	0
SONAR: Sentence-Level Multimodal and Language-Agnostic Representations	Aug 22, 2023	DecoderMachine Translation	CodeCode Available	2
SeamlessM4T: Massively Multilingual & Multimodal Machine Translation	Aug 22, 2023	Automatic Speech RecognitionMachine Translation	CodeCode Available	2
Towards an AI to Win Ghana's National Science and Maths Quiz	Aug 8, 2023	MathQuestion Answering	CodeCode Available	1
Let's Give a Voice to Conversational Agents in Virtual Reality	Aug 4, 2023	Speech-to-Texttext-to-speech	CodeCode Available	0
N-gram Boosting: Improving Contextual Biasing with Normalized N-gram Targets	Aug 4, 2023	Speech-to-Text	—Unverified	0
Code-Switched Urdu ASR for Noisy Telephonic Environment using Data Centric Approach with Hybrid HMM and CNN-TDNN	Jul 24, 2023	Automatic Speech RecognitionSentiment Analysis	CodeCode Available	0
A Change of Heart: Improving Speech Emotion Recognition through Speech-to-Text Modality Conversion	Jul 21, 2023	Automatic Speech RecognitionAutomatic Speech Recognition (ASR)	CodeCode Available	0
Improving RNN-Transducers with Acoustic LookAhead	Jul 11, 2023	HallucinationSpeech-to-Text	—Unverified	0
On decoder-only architecture for speech-to-text and large language model integration	Jul 8, 2023	DecoderLanguage Modeling	—Unverified	0
Performance Comparison of Pre-trained Models for Speech-to-Text in Turkish: Whisper-Small and Wav2Vec2-XLS-R-300M	Jul 6, 2023	Speech-to-Text	—Unverified	0

Show:10 25 50

← PrevPage 6 of 17Next →

No leaderboard results yet.