cross-modal alignment

Papers

Recently Added Most Hyped Most Active Needs Verification Most Verified

Showing 126–150 of 342 papers

Title	Date	Tasks	Status	Score
A coupled autoencoder approach for multi-modal analysis of cell types	Nov 6, 2019	Clusteringcross-modal alignment	CodeCode Available	5
It is Never Too Late to Mend: Separate Learning for Multimedia Recommendation	Jun 12, 2024	cross-modal alignmentMultimedia recommendation	CodeCode Available	5
MicarVLMoE: A Modern Gated Cross-Aligned Vision-Language Mixture of Experts Model for Medical Image Captioning and Report Generation	Apr 29, 2025	cross-modal alignmentDecoder	CodeCode Available	5
M^2ConceptBase: A Fine-Grained Aligned Concept-Centric Multimodal Knowledge Base	Dec 16, 2023	cross-modal alignmentKnowledge Graphs	CodeCode Available	5
Generating Image Descriptions via Sequential Cross-Modal Alignment Guided by Human Gaze	Nov 9, 2020	cross-modal alignmentImage Captioning	CodeCode Available	5
Listen Then See: Video Alignment with Speaker Attention	Apr 21, 2024	cross-modal alignmentQuestion Answering	CodeCode Available	5
Craft: Cross-modal Aligned Features Improve Robustness of Prompt Tuning	Jul 22, 2024	cross-modal alignment	CodeCode Available	5
LayoutLMv3: Pre-training for Document AI with Unified Text and Image Masking	Apr 18, 2022	cross-modal alignmentDocument AI	CodeCode Available	5
Learning Contextual Tag Embeddings for Cross-Modal Alignment of Audio and Tags	Oct 27, 2020	cross-modal alignmentRepresentation Learning	CodeCode Available	5
LoGoNet: Towards Accurate 3D Object Detection with Local-to-Global Cross-Modal Fusion	Mar 7, 2023	3D Object Detectioncross-modal alignment	CodeCode Available	5
Align before Search: Aligning Ads Image to Text for Accurate Cross-Modal Sponsored Search	Sep 28, 2023	cross-modal alignmentCross-Modal Retrieval	CodeCode Available	5
Contrast-augmented Diffusion Model with Fine-grained Sequence Alignment for Markup-to-Image Generation	Aug 2, 2023	cross-modal alignmentDenoising	CodeCode Available	5
KALE: An Artwork Image Captioning System Augmented with Heterogeneous Graph	Sep 17, 2024	cross-modal alignmentImage Captioning	CodeCode Available	5
Language-based Image Colorization: A Benchmark and Beyond	Mar 19, 2025	BenchmarkingColorization	CodeCode Available	5
Focus on Focus: Focus-oriented Representation Learning and Multi-view Cross-modal Alignment for Glioma Grading	Aug 16, 2024	Contrastive Learningcross-modal alignment	CodeCode Available	5
ICPL-ReID: Identity-Conditional Prompt Learning for Multi-Spectral Object Re-Identification	May 23, 2025	cross-modal alignmentPrompt Learning	CodeCode Available	5
KD-VLP: Improving End-to-End Vision-and-Language Pretraining with Object Knowledge Distillation	Sep 22, 2021	cross-modal alignmentKnowledge Distillation	CodeCode Available	5
HyperPath: Knowledge-Guided Hyperbolic Semantic Hierarchy Modeling for WSI Analysis	Jun 19, 2025	cross-modal alignmentMultiple Instance Learning	CodeCode Available	5
Improving Cross-Modal Alignment in Vision Language Navigation via Syntactic Information	Apr 19, 2021	cross-modal alignmentNavigate	CodeCode Available	5
Gaze-Guided Learning: Avoiding Shortcut Bias in Visual Classification	Apr 8, 2025	cross-modal alignmentImage Classification	CodeCode Available	5
Language-Guided Diffusion Model for Visual Grounding	Aug 18, 2023	cross-modal alignmentDenoising	CodeCode Available	5
Asymmetric Cross-Scale Alignment for Text-Based Person Search	Nov 26, 2022	cross-modal alignmentPerson Search	CodeCode Available	5
HCMA: Hierarchical Cross-model Alignment for Grounded Text-to-Image Generation	May 10, 2025	cross-modal alignmentImage Generation	CodeCode Available	5
Evaluating Semantic Variation in Text-to-Image Synthesis: A Causal Perspective	Oct 14, 2024	cross-modal alignmentImage Generation	CodeCode Available	5
Enhancing Visual Representation for Text-based Person Searching	Dec 30, 2024	cross-modal alignmentPerson Search	CodeCode Available	5

Show:10 25 50

← PrevPage 6 of 14Next →

No leaderboard results yet.