cross-modal alignment

Papers

Recently Added Most Hyped Most Active Needs Verification Most Verified

Showing 301–325 of 342 papers

Title	Date	Tasks	Status
M^2ConceptBase: A Fine-Grained Aligned Concept-Centric Multimodal Knowledge Base	Dec 16, 2023	cross-modal alignmentKnowledge Graphs	CodeCode Available
Task-Adapter++: Task-specific Adaptation with Order-aware Alignment for Few-shot Action Recognition	May 9, 2025	Action Recognitioncross-modal alignment	CodeCode Available
LoGoNet: Towards Accurate 3D Object Detection with Local-to-Global Cross-Modal Fusion	Mar 7, 2023	3D Object Detectioncross-modal alignment	CodeCode Available
SeCG: Semantic-Enhanced 3D Visual Grounding via Cross-modal Graph Attention	Mar 13, 2024	3D visual groundingcross-modal alignment	CodeCode Available
Gaze-Guided Learning: Avoiding Shortcut Bias in Visual Classification	Apr 8, 2025	cross-modal alignmentImage Classification	CodeCode Available
Focus on Focus: Focus-oriented Representation Learning and Multi-view Cross-modal Alignment for Glioma Grading	Aug 16, 2024	Contrastive Learningcross-modal alignment	CodeCode Available
Listen Then See: Video Alignment with Speaker Attention	Apr 21, 2024	cross-modal alignmentQuestion Answering	CodeCode Available
3D CoCa: Contrastive Learners are 3D Captioners	Apr 13, 2025	3D dense captioningCaption Generation	CodeCode Available
MV-CLAM: Multi-View Molecular Interpretation with Cross-Modal Projection via Language Model	Feb 23, 2025	cross-modal alignmentLanguage Modeling	CodeCode Available
Learning Contextual Tag Embeddings for Cross-Modal Alignment of Audio and Tags	Oct 27, 2020	cross-modal alignmentRepresentation Learning	CodeCode Available
A Priority Map for Vision-and-Language Navigation with Trajectory Plans and Feature-Location Cues	Jul 24, 2022	cross-modal alignmentTrajectory Planning	CodeCode Available
Craft: Cross-modal Aligned Features Improve Robustness of Prompt Tuning	Jul 22, 2024	cross-modal alignment	CodeCode Available
Anatomical Attention Alignment representation for Radiology Report Generation	May 12, 2025	cross-modal alignmentDecoder	CodeCode Available
A coupled autoencoder approach for multi-modal analysis of cell types	Nov 6, 2019	Clusteringcross-modal alignment	CodeCode Available
LayoutLMv3: Pre-training for Document AI with Unified Text and Image Masking	Apr 18, 2022	cross-modal alignmentDocument AI	CodeCode Available
Adaptive Spatial Transcriptomics Interpolation via Cross-modal Cross-slice Modeling	May 15, 2025	cross-modal alignment	CodeCode Available
Evaluating Semantic Variation in Text-to-Image Synthesis: A Causal Perspective	Oct 14, 2024	cross-modal alignmentImage Generation	CodeCode Available
OmniDRCA: Parallel Speech-Text Foundation Model via Dual-Resolution Speech Representations and Contrastive Alignment	Jun 11, 2025	cross-modal alignmentQuestion Answering	CodeCode Available
SimVTP: Simple Video Text Pre-training with Masked Autoencoders	Dec 7, 2022	Contrastive Learningcross-modal alignment	CodeCode Available
ERNIE-Layout: Layout-Knowledge Enhanced Multi-modal Pre-training for Document Understanding	Jan 16, 2022	cross-modal alignmentDocument Classification	CodeCode Available
Align before Search: Aligning Ads Image to Text for Accurate Cross-Modal Sponsored Search	Sep 28, 2023	cross-modal alignmentCross-Modal Retrieval	CodeCode Available
Enhancing Visual Representation for Text-based Person Searching	Dec 30, 2024	cross-modal alignmentPerson Search	CodeCode Available
Contrast-augmented Diffusion Model with Fine-grained Sequence Alignment for Markup-to-Image Generation	Aug 2, 2023	cross-modal alignmentDenoising	CodeCode Available
Language-Guided Diffusion Model for Visual Grounding	Aug 18, 2023	cross-modal alignmentDenoising	CodeCode Available
Language-based Image Colorization: A Benchmark and Beyond	Mar 19, 2025	BenchmarkingColorization	CodeCode Available

Show:10 25 50

← PrevPage 13 of 14Next →

No leaderboard results yet.