Speech-to-Text

Papers

Recently Added Most Hyped Most Active Needs Verification Most Verified

Showing 151–200 of 403 papers

Title	Date	Tasks	Status	Hype
Online Hybrid CTC/Attention End-to-End Automatic Speech Recognition Architecture	Jul 5, 2023	Automatic Speech RecognitionAutomatic Speech Recognition (ASR)	—Unverified	0
AudioPaLM: A Large Language Model That Can Speak and Listen	Jun 22, 2023	Language ModelingLanguage Modelling	—Unverified	0
Recent Advances in Direct Speech-to-text Translation	Jun 20, 2023	Data AugmentationDecoder	—Unverified	0
Open Brain AI. Automatic Language Assessment	Jun 11, 2023	Speech-to-Text	—Unverified	0
Speech-to-Text Adapter and Speech-to-Entity Retriever Augmented LLMs for Speech Understanding	Jun 8, 2023	dialog state trackingLanguage Modeling	—Unverified	0
Towards End-to-end Speech-to-text Summarization	Jun 6, 2023	Abstractive Text SummarizationSpeech-to-Text	CodeCode Available	0
Improved Cross-Lingual Transfer Learning For Automatic Speech Translation	Jun 1, 2023	automatic-speech-translationCross-Lingual Transfer	—Unverified	0
Strategies for improving low resource speech to text translation relying on pre-trained ASR models	May 31, 2023	Automatic Speech RecognitionDecoder	—Unverified	0
STT4SG-350: A Speech Corpus for All Swiss German Dialect Regions	May 30, 2023	AllAutomatic Speech Recognition	—Unverified	0
CIF-PT: Bridging Speech and Text Representations for Spoken Language Understanding via Continuous Integrate-and-Fire Pre-Training	May 27, 2023	intent-classificationIntent Classification	—Unverified	0
VioLA: Unified Codec Language Models for Speech Recognition, Synthesis, and Translation	May 25, 2023	DecoderLanguage Modeling	—Unverified	0
ComSL: A Composite Speech-Language Model for End-to-End Speech-to-Text Translation	May 24, 2023	GPULanguage Modeling	CodeCode Available	1
Improving Metrics for Speech Translation	May 22, 2023	Speech-to-TextTranslation	—Unverified	0
DUB: Discrete Unit Back-translation for Speech Translation	May 19, 2023	Machine TranslationSpeech-to-Text	CodeCode Available	1
Application-Agnostic Language Modeling for On-Device ASR	May 16, 2023	Automatic Speech RecognitionLanguage Modeling	—Unverified	0
A Whisper transformer for audio captioning trained with synthetic captions and transfer learning	May 15, 2023	Audio captioningSpeech-to-Text	CodeCode Available	1
Back Translation for Speech-to-text Translation Without Transcripts	May 15, 2023	Automatic Speech RecognitionAutomatic Speech Recognition (ASR)	CodeCode Available	1
Hybrid Transducer and Attention based Encoder-Decoder Modeling for Speech-to-Text Tasks	May 4, 2023	Automatic Speech RecognitionAutomatic Speech Recognition (ASR)	—Unverified	0
Improving Autoregressive NLP Tasks via Modular Linearized Attention	Apr 17, 2023	Computational EfficiencyMachine Translation	—Unverified	0
ESPnet-ST-v2: Multipurpose Spoken Language Translation Toolkit	Apr 10, 2023	BenchmarkingSimultaneous Speech-to-Text Translation	—Unverified	0
Enhancing Speech-to-Speech Translation with Multiple TTS Targets	Apr 10, 2023	Speech-to-Speech TranslationSpeech-to-Text	—Unverified	0
Natural Language Robot Programming: NLP integrated with autonomous robotic grasping	Apr 6, 2023	Robotic GraspingSpeech-to-Text	—Unverified	0
Improving the previous state-of-the-art Frisian ASR by fine-tuning XLS-R	Mar 31, 2023	Automatic Speech RecognitionAutomatic Speech Recognition (ASR)	—Unverified	0
wav2vec and its current potential to Automatic Speech Recognition in German for the usage in Digital History: A comparative assessment of available ASR-technologies for the use in cultural heritage contexts	Mar 6, 2023	Automatic Speech RecognitionAutomatic Speech Recognition (ASR)	—Unverified	0
Google USM: Scaling Automatic Speech Recognition Beyond 100 Languages	Mar 2, 2023	Automatic Speech RecognitionAutomatic Speech Recognition (ASR)	—Unverified	0
MuAViC: A Multilingual Audio-Visual Corpus for Robust Speech Recognition and Robust Speech-to-Text Translation	Mar 1, 2023	Audio-Visual Speech RecognitionRobust Speech Recognition	CodeCode Available	2
Improving Medical Speech-to-Text Accuracy with Vision-Language Pre-training Model	Feb 27, 2023	Automatic Speech RecognitionAutomatic Speech Recognition (ASR)	—Unverified	0
PATCorrect: Non-autoregressive Phoneme-augmented Transformer for ASR Error Correction	Feb 10, 2023	Automatic Speech RecognitionAutomatic Speech Recognition (ASR)	—Unverified	0
Characterizing Financial Market Coverage using Artificial Intelligence	Feb 7, 2023	Speech-to-Text	—Unverified	0
PSST! Prosodic Speech Segmentation with Transformers	Feb 3, 2023	SegmentationSpeech-to-Text	CodeCode Available	1
Pre-training for Speech Translation: CTC Meets Optimal Transport	Jan 27, 2023	Multi-Task LearningSpeech-to-Text	CodeCode Available	1
Using External Off-Policy Speech-To-Text Mappings in Contextual End-To-End Automated Speech Recognition	Jan 6, 2023	Domain AdaptationGPU	—Unverified	0
Pushing the performances of ASR models on English and Spanish accents	Dec 22, 2022	Speech-to-Text	—Unverified	0
WACO: Word-Aligned Contrastive Learning for Speech Translation	Dec 19, 2022	Contrastive LearningSpeech-to-Text	CodeCode Available	0
M3ST: Mix at Three Levels for Speech Translation	Dec 7, 2022	Data AugmentationDiversity	—Unverified	0
MMSpeech: Multi-modal Multi-task Encoder-Decoder Pre-training for Speech Recognition	Nov 29, 2022	Automatic Speech RecognitionAutomatic Speech Recognition (ASR)	—Unverified	0
Handling and extracting key entities from customer conversations using Speech recognition and Named Entity recognition	Nov 28, 2022	named-entity-recognitionNamed Entity Recognition	—Unverified	0
Multilingual Speech Emotion Recognition With Multi-Gating Mechanism and Neural Architecture Search	Oct 31, 2022	Emotion RecognitionNeural Architecture Search	—Unverified	0
Phonemic Representation and Transcription for Speech to Text Applications for Under-resourced Indigenous African Languages: The Case of Kiswahili	Oct 29, 2022	Automatic Speech RecognitionAutomatic Speech Recognition (ASR)	—Unverified	0
Efficient Speech Translation with Dynamic Latent Perceivers	Oct 28, 2022	Speech-to-TextSpeech-to-Text Translation	CodeCode Available	0
Don't Discard Fixed-Window Audio Segmentation in Speech-to-Text Translation	Oct 24, 2022	SegmentationSpeech-to-Text	CodeCode Available	0
Information-Transport-based Policy for Simultaneous Translation	Oct 22, 2022	Machine TranslationSpeech-to-Text	CodeCode Available	1
Named Entity Detection and Injection for Direct Speech Translation	Oct 21, 2022	SentenceSpeech-to-Text	—Unverified	0
Improving Semi-supervised End-to-end Automatic Speech Recognition using CycleGAN and Inter-domain Losses	Oct 20, 2022	Automatic Speech RecognitionAutomatic Speech Recognition (ASR)	—Unverified	0
Simple and Effective Unsupervised Speech Translation	Oct 18, 2022	Domain AdaptationMachine Translation	—Unverified	0
Anonymizing Speech with Generative Adversarial Networks to Preserve Speaker Privacy	Oct 13, 2022	Generative Adversarial NetworkSpeaker anonymization	—Unverified	0
CTC Alignments Improve Autoregressive Translation	Oct 11, 2022	Automatic Speech RecognitionAutomatic Speech Recognition (ASR)	—Unverified	0
SpeechUT: Bridging Speech and Text with Hidden-Unit for Encoder-Decoder Based Speech-Text Pre-training	Oct 7, 2022	Automatic Speech RecognitionAutomatic Speech Recognition (ASR)	CodeCode Available	0
JoeyS2T: Minimalistic Speech-to-Text Modeling with JoeyNMT	Oct 5, 2022	Automatic Speech RecognitionAutomatic Speech Recognition (ASR)	CodeCode Available	1
Speech-to-Text and Evaluation of Multiple Machine Translation Systems	Sep 1, 2022	Machine TranslationSpeech-to-Text	—Unverified	0

Show:10 25 50

← PrevPage 4 of 9Next →

No leaderboard results yet.