Speech-to-Text

Papers

Recently Added Most Hyped Most Active Needs Verification Most Verified

Showing 76–100 of 403 papers

Title	Date	Tasks	Status	Hype
Listen and Speak Fairly: A Study on Semantic Gender Bias in Speech Integrated Large Language Models	Jul 9, 2024	coreference-resolutionCoreference Resolution	CodeCode Available	0
Finetuning End-to-End Models for Estonian Conversational Spoken Language Translation	Jul 4, 2024	Machine Translationspeech-recognition	—Unverified	0
Investigating Decoder-only Large Language Models for Speech-to-text Translation	Jul 3, 2024	Decoderparameter-efficient fine-tuning	—Unverified	0
Towards Unsupervised Speaker Diarization System for Multilingual Telephone Calls Using Pre-trained Whisper Model and Mixture of Sparse Autoencoders	Jul 2, 2024	Clusteringspeaker-diarization	—Unverified	0
NAIST Simultaneous Speech Translation System for IWSLT 2024	Jun 30, 2024	Speech-to-Speech TranslationSpeech-to-Text	—Unverified	0
Calibrated SVM for Probabilistic Classification of In-Vehicle Voices into Vehicle Commands via Voice-to-Text LLM Transformation	Jun 28, 2024	Speech-to-Texttext-classification	CodeCode Available	0
Voices Unheard: NLP Resources and Models for Yorùbá Regional Dialects	Jun 27, 2024	Automatic Speech RecognitionMachine Translation	CodeCode Available	0
ArzEn-LLM: Code-Switched Egyptian Arabic-English Translation and Speech Recognition Using LLMs	Jun 26, 2024	ArzEn Code-switched Translation to araArzEn Code-switched Translation to eng	CodeCode Available	1
Automatic speech recognition for the Nepali language using CNN, bidirectional LSTM and ResNet	Jun 25, 2024	Automatic Speech RecognitionAutomatic Speech Recognition (ASR)	CodeCode Available	1
Revisiting Interpolation Augmentation for Speech-to-Text Generation	Jun 22, 2024	Speech-to-TextText Generation	CodeCode Available	1
SimulSeamless: FBK at IWSLT 2024 Simultaneous Speech Translation	Jun 20, 2024	Speech-to-TextSpeech-to-Text Translation	CodeCode Available	0
Transferable speech-to-text large language model alignment module	Jun 19, 2024	Language ModelingLanguage Modelling	—Unverified	0
CoSTA: Code-Switched Speech Translation using Aligned Speech-Text Interleaving	Jun 16, 2024	Automatic Speech RecognitionAutomatic Speech Recognition (ASR)	—Unverified	0
Whisper-Flamingo: Integrating Visual Features into Whisper for Audio-Visual Speech Recognition and Translation	Jun 14, 2024	Audio-Visual Speech RecognitionAutomatic Speech Recognition (ASR)	CodeCode Available	3
On the Effects of Heterogeneous Data Sources on Speech-to-Text Foundation Models	Jun 13, 2024	Language ModelingLanguage Modelling	—Unverified	0
Can We Achieve High-quality Direct Speech-to-Speech Translation without Parallel Speech Data?	Jun 11, 2024	Contrastive LearningSpeech Synthesis	—Unverified	0
A Non-autoregressive Generation Framework for End-to-End Simultaneous Speech-to-Speech Translation	Jun 11, 2024	DecoderSimultaneous Speech-to-Speech Translation	CodeCode Available	2
Synthetic Query Generation using Large Language Models for Virtual Assistants	Jun 10, 2024	Information Retrievalspeech-recognition	—Unverified	0
StreamAtt: Direct Streaming Speech-to-Text Translation with Attention-based Audio History Selection	Jun 10, 2024	Speech-to-TextSpeech-to-Text Translation	CodeCode Available	0
VR-GPT: Visual Language Model for Intelligent Virtual Reality Applications	May 19, 2024	Language ModelingLanguage Modelling	—Unverified	0
LeaPformer: Enabling Linear Transformers for Autoregressive and Simultaneous Tasks via Learned Proportions	May 18, 2024	Language ModelingLanguage Modelling	CodeCode Available	1
Semantic MIMO Systems for Speech-to-Text Transmission	May 13, 2024	Semantic CommunicationSpeech-to-Text	—Unverified	0
A Toolchain for Comprehensive Audio/Video Analysis Using Deep Learning Based Multimodal Approach (A use case of riot or violent context detection)	May 2, 2024	Acoustic Scene ClassificationEvent Detection	—Unverified	0
Simultaneous Interpretation Corpus Construction by Large Language Models in Distant Language Pair	Apr 18, 2024	Machine TranslationSpeech-to-Text	CodeCode Available	0
NaturalTurn: A Method to Segment Transcripts into Naturalistic Conversational Turns	Mar 22, 2024	Speech-to-Text	—Unverified	0

Show:10 25 50

← PrevPage 4 of 17Next →

No leaderboard results yet.