Speech-to-Text

Papers

Recently Added Most Hyped Most Active Needs Verification Most Verified

Showing 51–100 of 403 papers

Title	Date	Tasks	Status	Hype
A Survey on Speech Large Language Models	Oct 24, 2024	Automatic Speech RecognitionAutomatic Speech Recognition (ASR)	—Unverified	0
STTATTS: Unified Speech-To-Text And Text-To-Speech Model	Oct 24, 2024	Multi-Task Learningspeech-recognition	CodeCode Available	1
Contextual Biasing to Improve Domain-specific Custom Vocabulary Audio Transcription without Explicit Fine-Tuning of Whisper Model	Oct 24, 2024	speech-recognitionSpeech Recognition	—Unverified	0
Dialetto, ma Quanto Dialetto? Transcribing and Evaluating Dialects on a Continuum	Oct 18, 2024	Speech-to-Text	—Unverified	0
Titanic Calling: Low Bandwidth Video Conference from the Titanic Wreck	Oct 15, 2024	Speech-to-Text	—Unverified	0
Denial-of-Service Poisoning Attacks against Large Language Models	Oct 14, 2024	16kSpeech-to-Text	CodeCode Available	1
Unsupervised Data Validation Methods for Efficient Model Training	Oct 10, 2024	Data Augmentationmodel	—Unverified	0
Transducer Consistency Regularization for Speech to Text Applications	Oct 9, 2024	Model OptimizationSpeech-to-Text	—Unverified	0
Algorithms For Automatic Accentuation And Transcription Of Russian Texts In Speech Recognition Systems	Oct 3, 2024	Automatic Speech RecognitionAutomatic Speech Recognition (ASR)	—Unverified	0
Unveiling the Role of Pretraining in Direct Speech Translation	Sep 26, 2024	Automatic Speech RecognitionDecoder	—Unverified	0
How to Connect Speech Foundation Models and Large Language Models? What Matters and What Does Not	Sep 25, 2024	Automatic Speech Recognitionspeech-recognition	—Unverified	0
Toward Automated Clinical Transcriptions	Sep 20, 2024	Speech-to-Text	—Unverified	0
On the Feasibility of Fully AI-automated Vishing Attacks	Sep 20, 2024	Large Language ModelSpeech-to-Text	—Unverified	0
Ideal-LLM: Integrating Dual Encoders and Language-Adapted LLM for Multilingual Speech-to-Text	Sep 17, 2024	Automatic Speech RecognitionAutomatic Speech Recognition (ASR)	—Unverified	0
Optimizing Rare Word Accuracy in Direct Speech Translation with a Retrieval-and-Demonstration Approach	Sep 13, 2024	In-Context LearningRetrieval	CodeCode Available	0
Evaluation of real-time transcriptions using end-to-end ASR models	Sep 9, 2024	Action DetectionActivity Detection	—Unverified	0
LAST: Language Model Aware Speech Tokenization	Sep 5, 2024	Language ModelingLanguage Modelling	—Unverified	0
AI-Based IVR	Aug 20, 2024	Speech SynthesisSpeech-to-Text	—Unverified	0
CMU's IWSLT 2024 Simultaneous Speech Translation System	Aug 14, 2024	DecoderSpeech-to-Text	—Unverified	0
OpenOmni: A Collaborative Open Source Tool for Building Future-Ready Multimodal Conversational Agents	Aug 6, 2024	BenchmarkingRetrieval-augmented Generation	CodeCode Available	1
LLaST: Improved End-to-end Speech Translation System Leveraged by Large Language Models	Jul 22, 2024	Data AugmentationLanguage Modeling	CodeCode Available	1
CoVoSwitch: Machine Translation of Synthetic Code-Switched Text Based on Intonation Units	Jul 19, 2024	Machine TranslationSpeech-to-Text	CodeCode Available	0
Indoor Air Quality Dataset with Activities of Daily Living in Low to Middle-income Communities	Jul 19, 2024	ImputationRecommendation Systems	CodeCode Available	1
AI-Powered Immersive Assistance for Interactive Task Execution in Industrial Environments	Jul 12, 2024	Language ModelingLanguage Modelling	—Unverified	0
Evaluating Voice Command Pipelines for Drone Control: From STT and LLM to Direct Classification and Siamese Networks	Jul 10, 2024	Language ModelingLanguage Modelling	—Unverified	0
Listen and Speak Fairly: A Study on Semantic Gender Bias in Speech Integrated Large Language Models	Jul 9, 2024	coreference-resolutionCoreference Resolution	CodeCode Available	0
Finetuning End-to-End Models for Estonian Conversational Spoken Language Translation	Jul 4, 2024	Machine Translationspeech-recognition	—Unverified	0
Investigating Decoder-only Large Language Models for Speech-to-text Translation	Jul 3, 2024	Decoderparameter-efficient fine-tuning	—Unverified	0
Towards Unsupervised Speaker Diarization System for Multilingual Telephone Calls Using Pre-trained Whisper Model and Mixture of Sparse Autoencoders	Jul 2, 2024	Clusteringspeaker-diarization	—Unverified	0
NAIST Simultaneous Speech Translation System for IWSLT 2024	Jun 30, 2024	Speech-to-Speech TranslationSpeech-to-Text	—Unverified	0
Calibrated SVM for Probabilistic Classification of In-Vehicle Voices into Vehicle Commands via Voice-to-Text LLM Transformation	Jun 28, 2024	Speech-to-Texttext-classification	CodeCode Available	0
Voices Unheard: NLP Resources and Models for Yorùbá Regional Dialects	Jun 27, 2024	Automatic Speech RecognitionMachine Translation	CodeCode Available	0
ArzEn-LLM: Code-Switched Egyptian Arabic-English Translation and Speech Recognition Using LLMs	Jun 26, 2024	ArzEn Code-switched Translation to araArzEn Code-switched Translation to eng	CodeCode Available	1
Automatic speech recognition for the Nepali language using CNN, bidirectional LSTM and ResNet	Jun 25, 2024	Automatic Speech RecognitionAutomatic Speech Recognition (ASR)	CodeCode Available	1
Revisiting Interpolation Augmentation for Speech-to-Text Generation	Jun 22, 2024	Speech-to-TextText Generation	CodeCode Available	1
SimulSeamless: FBK at IWSLT 2024 Simultaneous Speech Translation	Jun 20, 2024	Speech-to-TextSpeech-to-Text Translation	—Unverified	0
Transferable speech-to-text large language model alignment module	Jun 19, 2024	Language ModelingLanguage Modelling	—Unverified	0
CoSTA: Code-Switched Speech Translation using Aligned Speech-Text Interleaving	Jun 16, 2024	Automatic Speech RecognitionAutomatic Speech Recognition (ASR)	—Unverified	0
Whisper-Flamingo: Integrating Visual Features into Whisper for Audio-Visual Speech Recognition and Translation	Jun 14, 2024	Audio-Visual Speech RecognitionAutomatic Speech Recognition (ASR)	CodeCode Available	3
On the Effects of Heterogeneous Data Sources on Speech-to-Text Foundation Models	Jun 13, 2024	Language ModelingLanguage Modelling	—Unverified	0
Can We Achieve High-quality Direct Speech-to-Speech Translation without Parallel Speech Data?	Jun 11, 2024	Contrastive LearningSpeech Synthesis	—Unverified	0
A Non-autoregressive Generation Framework for End-to-End Simultaneous Speech-to-Speech Translation	Jun 11, 2024	DecoderSimultaneous Speech-to-Speech Translation	CodeCode Available	2
Synthetic Query Generation using Large Language Models for Virtual Assistants	Jun 10, 2024	Information Retrievalspeech-recognition	—Unverified	0
StreamAtt: Direct Streaming Speech-to-Text Translation with Attention-based Audio History Selection	Jun 10, 2024	Speech-to-TextSpeech-to-Text Translation	—Unverified	0
VR-GPT: Visual Language Model for Intelligent Virtual Reality Applications	May 19, 2024	Language ModelingLanguage Modelling	—Unverified	0
LeaPformer: Enabling Linear Transformers for Autoregressive and Simultaneous Tasks via Learned Proportions	May 18, 2024	Language ModelingLanguage Modelling	CodeCode Available	1
Semantic MIMO Systems for Speech-to-Text Transmission	May 13, 2024	Semantic CommunicationSpeech-to-Text	—Unverified	0
A Toolchain for Comprehensive Audio/Video Analysis Using Deep Learning Based Multimodal Approach (A use case of riot or violent context detection)	May 2, 2024	Acoustic Scene ClassificationEvent Detection	—Unverified	0
Simultaneous Interpretation Corpus Construction by Large Language Models in Distant Language Pair	Apr 18, 2024	Machine TranslationSpeech-to-Text	CodeCode Available	0
NaturalTurn: A Method to Segment Transcripts into Naturalistic Conversational Turns	Mar 22, 2024	Speech-to-Text	—Unverified	0

Show:10 25 50

← PrevPage 2 of 9Next →

No leaderboard results yet.