Image to text

Papers

Recently Added Most Hyped Most Active Needs Verification Most Verified

Showing 226–246 of 246 papers

Title	Date	Tasks	Status
Learning Deep Structure-Preserving Image-Text Embeddings	Nov 19, 2015	Image RetrievalImage to text	—Unverified
Learning Pseudo-Labeler beyond Noun Concepts for Open-Vocabulary Object Detection	Dec 4, 2023	Image to textobject-detection	—Unverified
Leveraging AI to Generate Audio for User-generated Content in Video Games	Apr 25, 2024	Audio GenerationGame Design	—Unverified
Leveraging Unpaired Data for Vision-Language Generative Models via Cycle Consistency	Oct 5, 2023	Image GenerationImage to text	—Unverified
MatCha: Enhancing Visual Language Pretraining with Math Reasoning and Chart Derendering	Dec 19, 2022	Chart Question AnsweringData Summarization	—Unverified
MedM2G: Unifying Medical Multi-Modal Generation via Cross-Guided Diffusion with Visual Invariant	Mar 7, 2024	Clinical KnowledgeImage to text	—Unverified
MFP-CLIP: Exploring the Efficacy of Multi-Form Prompts for Zero-Shot Industrial Anomaly Detection	Mar 17, 2025	Anomaly DetectionForm	—Unverified
Category-Oriented Representation Learning for Image to Multi-Modal Retrieval	May 6, 2023	Cross-Modal RetrievalImage Retrieval	—Unverified
Multilingual Image Corpus – Towards a Multimodal and Multilingual Dataset	Jun 1, 2022	Caption Generationimage-classification	—Unverified
Multimodal Intelligence: Representation Learning, Information Fusion, and Applications	Nov 10, 2019	Caption GenerationImage Generation	—Unverified
Multimodal Neurons in Pretrained Text-Only Transformers	Aug 3, 2023	Image CaptioningImage to text	—Unverified
Natural Language Generation	Mar 20, 2025	Image CaptioningImage to text	—Unverified
Natural Language Generation from Visual Sequences: Challenges and Future Directions	Feb 18, 2025	Image to textText Generation	—Unverified
Offline Detection of Misspelled Handwritten Words by Convolving Recognition Model Features with Text Labels	Sep 18, 2023	Generative Adversarial NetworkHandwriting Recognition	—Unverified
On the Importance of Text Preprocessing for Multimodal Representation Learning and Pathology Report Generation	Feb 26, 2025	Cross-Modal RetrievalHallucination	—Unverified
OVFoodSeg: Elevating Open-Vocabulary Food Image Segmentation via Image-Informed Textual Representation	Apr 1, 2024	Image SegmentationImage to text	—Unverified
Paired Cross-Modal Data Augmentation for Fine-Grained Image-to-Text Retrieval	Jul 29, 2022	Cross-Modal RetrievalData Augmentation	—Unverified
Patch is Enough: Naturalistic Adversarial Patch against Vision-Language Pre-training Models	Oct 7, 2024	Image to text	—Unverified
PiTL: Cross-modal Retrieval with Weakly-supervised Vision-language Pre-training via Prompting	Jul 14, 2023	Cross-Modal RetrievalImage to text	—Unverified
RefineNet: Enhancing Text-to-Image Conversion with High-Resolution and Detail Accuracy through Hierarchical Transformers and Progressive Refinement	Dec 27, 2023	Computational EfficiencyImage Generation	—Unverified
Reinforced UI Instruction Grounding: Towards a Generic UI Task Automation API	Oct 7, 2023	Decoderdocument understanding	—Unverified

Show:10 25 50

← PrevPage 10 of 10Next →

No leaderboard results yet.