cross-modal alignment

Papers

Recently Added Most Hyped Most Active Needs Verification Most Verified

Showing 301–342 of 342 papers

Title	Date	Tasks	Status
M^2ConceptBase: A Fine-Grained Aligned Concept-Centric Multimodal Knowledge Base	Dec 16, 2023	cross-modal alignmentKnowledge Graphs	CodeCode Available
Task-Adapter++: Task-specific Adaptation with Order-aware Alignment for Few-shot Action Recognition	May 9, 2025	Action Recognitioncross-modal alignment	CodeCode Available
LoGoNet: Towards Accurate 3D Object Detection with Local-to-Global Cross-Modal Fusion	Mar 7, 2023	3D Object Detectioncross-modal alignment	CodeCode Available
SeCG: Semantic-Enhanced 3D Visual Grounding via Cross-modal Graph Attention	Mar 13, 2024	3D visual groundingcross-modal alignment	CodeCode Available
Gaze-Guided Learning: Avoiding Shortcut Bias in Visual Classification	Apr 8, 2025	cross-modal alignmentImage Classification	CodeCode Available
Focus on Focus: Focus-oriented Representation Learning and Multi-view Cross-modal Alignment for Glioma Grading	Aug 16, 2024	Contrastive Learningcross-modal alignment	CodeCode Available
Listen Then See: Video Alignment with Speaker Attention	Apr 21, 2024	cross-modal alignmentQuestion Answering	CodeCode Available
3D CoCa: Contrastive Learners are 3D Captioners	Apr 13, 2025	3D dense captioningCaption Generation	CodeCode Available
MV-CLAM: Multi-View Molecular Interpretation with Cross-Modal Projection via Language Model	Feb 23, 2025	cross-modal alignmentLanguage Modeling	CodeCode Available
Learning Contextual Tag Embeddings for Cross-Modal Alignment of Audio and Tags	Oct 27, 2020	cross-modal alignmentRepresentation Learning	CodeCode Available
A Priority Map for Vision-and-Language Navigation with Trajectory Plans and Feature-Location Cues	Jul 24, 2022	cross-modal alignmentTrajectory Planning	CodeCode Available
Craft: Cross-modal Aligned Features Improve Robustness of Prompt Tuning	Jul 22, 2024	cross-modal alignment	CodeCode Available
Anatomical Attention Alignment representation for Radiology Report Generation	May 12, 2025	cross-modal alignmentDecoder	CodeCode Available
A coupled autoencoder approach for multi-modal analysis of cell types	Nov 6, 2019	Clusteringcross-modal alignment	CodeCode Available
LayoutLMv3: Pre-training for Document AI with Unified Text and Image Masking	Apr 18, 2022	cross-modal alignmentDocument AI	CodeCode Available
Adaptive Spatial Transcriptomics Interpolation via Cross-modal Cross-slice Modeling	May 15, 2025	cross-modal alignment	CodeCode Available
Evaluating Semantic Variation in Text-to-Image Synthesis: A Causal Perspective	Oct 14, 2024	cross-modal alignmentImage Generation	CodeCode Available
OmniDRCA: Parallel Speech-Text Foundation Model via Dual-Resolution Speech Representations and Contrastive Alignment	Jun 11, 2025	cross-modal alignmentQuestion Answering	CodeCode Available
SimVTP: Simple Video Text Pre-training with Masked Autoencoders	Dec 7, 2022	Contrastive Learningcross-modal alignment	CodeCode Available
ERNIE-Layout: Layout-Knowledge Enhanced Multi-modal Pre-training for Document Understanding	Jan 16, 2022	cross-modal alignmentDocument Classification	CodeCode Available
Align before Search: Aligning Ads Image to Text for Accurate Cross-Modal Sponsored Search	Sep 28, 2023	cross-modal alignmentCross-Modal Retrieval	CodeCode Available
Enhancing Visual Representation for Text-based Person Searching	Dec 30, 2024	cross-modal alignmentPerson Search	CodeCode Available
Contrast-augmented Diffusion Model with Fine-grained Sequence Alignment for Markup-to-Image Generation	Aug 2, 2023	cross-modal alignmentDenoising	CodeCode Available
Language-Guided Diffusion Model for Visual Grounding	Aug 18, 2023	cross-modal alignmentDenoising	CodeCode Available
Language-based Image Colorization: A Benchmark and Beyond	Mar 19, 2025	BenchmarkingColorization	CodeCode Available
CAST: Cross-modal Alignment Similarity Test for Vision Language Models	Sep 17, 2024	cross-modal alignmentQuestion Answering	CodeCode Available
Towards Cross-Modal Text-Molecule Retrieval with Better Modality Alignment	Oct 31, 2024	Contrastive Learningcross-modal alignment	CodeCode Available
KD-VLP: Improving End-to-End Vision-and-Language Pretraining with Object Knowledge Distillation	Sep 22, 2021	cross-modal alignmentKnowledge Distillation	CodeCode Available
KALE: An Artwork Image Captioning System Augmented with Heterogeneous Graph	Sep 17, 2024	cross-modal alignmentImage Captioning	CodeCode Available
Improving Cross-Modal Alignment in Vision Language Navigation via Syntactic Information	Apr 19, 2021	cross-modal alignmentNavigate	CodeCode Available
Probabilistic Embeddings for Frozen Vision-Language Models: Uncertainty Quantification with Gaussian Process Latent Variable Models	May 8, 2025	Active Learningcross-modal alignment	CodeCode Available
Asymmetric Cross-Scale Alignment for Text-Based Person Search	Nov 26, 2022	cross-modal alignmentPerson Search	CodeCode Available
Unmasked Teacher: Towards Training-Efficient Video Foundation Models	Mar 28, 2023	Action ClassificationAction Recognition	CodeCode Available
Discrete Cross-Modal Alignment Enables Zero-Shot Speech Translation	Oct 18, 2022	Automatic Speech RecognitionAutomatic Speech Recognition (ASR)	CodeCode Available
RCRank: Multimodal Ranking of Root Causes of Slow Queries in Cloud Database Systems	Mar 6, 2025	cross-modal alignment	CodeCode Available
ICPL-ReID: Identity-Conditional Prompt Learning for Multi-Spectral Object Re-Identification	May 23, 2025	cross-modal alignmentPrompt Learning	CodeCode Available
HyperPath: Knowledge-Guided Hyperbolic Semantic Hierarchy Modeling for WSI Analysis	Jun 19, 2025	cross-modal alignmentMultiple Instance Learning	CodeCode Available
Reinforced Cross-modal Alignment for Radiology Report Generation	May 1, 2022	cross-modal alignmentDecision Making	CodeCode Available
CardiacMamba: A Multimodal RGB-RF Fusion Framework with State Space Models for Remote Physiological Measurement	Feb 19, 2025	cross-modal alignmentFairness	CodeCode Available
It is Never Too Late to Mend: Separate Learning for Multimedia Recommendation	Jun 12, 2024	cross-modal alignmentMultimedia recommendation	CodeCode Available
Robust Graph Matching Using An Unbalanced Hierarchical Optimal Transport Framework	Oct 18, 2023	cross-modal alignmentGraph Matching	CodeCode Available
DAC: 2D-3D Retrieval with Noisy Labels via Divide-and-Conquer Alignment and Correction	Jul 25, 2024	cross-modal alignmentCross-Modal Retrieval	CodeCode Available

Show:10 25 50

← PrevPage 7 of 7Next →

No leaderboard results yet.