cross-modal alignment

Papers

Recently Added Most Hyped Most Active Needs Verification Most Verified

Showing 101–150 of 342 papers

Title	Date	Tasks	Status	Hype	Score
CAV-MAE Sync: Improving Contrastive Audio-Visual Mask Autoencoders via Fine-Grained Alignment	May 2, 2025	audio-visual learningcross-modal alignment	CodeCode Available	1	5
Position-Enhanced Visual Instruction Tuning for Multimodal Large Language Models	Aug 25, 2023	cross-modal alignmentPosition	CodeCode Available	1	5
CoMP: Continual Multimodal Pre-training for Vision Foundation Models	Mar 24, 2025	cross-modal alignment	CodeCode Available	1	5
Global and Local Semantic Completion Learning for Vision-Language Pre-training	Jun 12, 2023	cross-modal alignmentImage-text Retrieval	CodeCode Available	1	5
WhiSPA: Semantically and Psychologically Aligned Whisper with Self-Supervised Contrastive and Student-Teacher Learning	Jan 15, 2025	cross-modal alignmentLanguage Modeling	CodeCode Available	1	5
Enhanced OoD Detection through Cross-Modal Alignment of Multi-Modal Representations	Mar 24, 2025	cross-modal alignmentImage Classification	CodeCode Available	1	5
Towards Cross-Modal Text-Molecule Retrieval with Better Modality Alignment	Oct 31, 2024	Contrastive Learningcross-modal alignment	CodeCode Available	0	5
Unmasked Teacher: Towards Training-Efficient Video Foundation Models	Mar 28, 2023	Action ClassificationAction Recognition	CodeCode Available	0	5
Task-Adapter++: Task-specific Adaptation with Order-aware Alignment for Few-shot Action Recognition	May 9, 2025	Action Recognitioncross-modal alignment	CodeCode Available	0	5
Unsupervised Cross-Modal Alignment for Multi-Person 3D Pose Estimation	Aug 4, 2020	2D Pose Estimation3D Human Pose Estimation	CodeCode Available	0	5
SimVTP: Simple Video Text Pre-training with Masked Autoencoders	Dec 7, 2022	Contrastive Learningcross-modal alignment	CodeCode Available	0	5
Adaptive Spatial Transcriptomics Interpolation via Cross-modal Cross-slice Modeling	May 15, 2025	cross-modal alignment	CodeCode Available	0	5
Reinforced Cross-modal Alignment for Radiology Report Generation	May 1, 2022	cross-modal alignmentDecision Making	CodeCode Available	0	5
A Priority Map for Vision-and-Language Navigation with Trajectory Plans and Feature-Location Cues	Jul 24, 2022	cross-modal alignmentTrajectory Planning	CodeCode Available	0	5
SeCG: Semantic-Enhanced 3D Visual Grounding via Cross-modal Graph Attention	Mar 13, 2024	3D visual groundingcross-modal alignment	CodeCode Available	0	5
Discrete Cross-Modal Alignment Enables Zero-Shot Speech Translation	Oct 18, 2022	Automatic Speech RecognitionAutomatic Speech Recognition (ASR)	CodeCode Available	0	5
Anatomical Attention Alignment representation for Radiology Report Generation	May 12, 2025	cross-modal alignmentDecoder	CodeCode Available	0	5
RCRank: Multimodal Ranking of Root Causes of Slow Queries in Cloud Database Systems	Mar 6, 2025	cross-modal alignment	CodeCode Available	0	5
Probabilistic Embeddings for Frozen Vision-Language Models: Uncertainty Quantification with Gaussian Process Latent Variable Models	May 8, 2025	Active Learningcross-modal alignment	CodeCode Available	0	5
Robust Graph Matching Using An Unbalanced Hierarchical Optimal Transport Framework	Oct 18, 2023	cross-modal alignmentGraph Matching	CodeCode Available	0	5
3D CoCa: Contrastive Learners are 3D Captioners	Apr 13, 2025	3D dense captioningCaption Generation	CodeCode Available	0	5
CAST: Cross-modal Alignment Similarity Test for Vision Language Models	Sep 17, 2024	cross-modal alignmentQuestion Answering	CodeCode Available	0	5
OmniDRCA: Parallel Speech-Text Foundation Model via Dual-Resolution Speech Representations and Contrastive Alignment	Jun 11, 2025	cross-modal alignmentQuestion Answering	CodeCode Available	0	5
CardiacMamba: A Multimodal RGB-RF Fusion Framework with State Space Models for Remote Physiological Measurement	Feb 19, 2025	cross-modal alignmentFairness	CodeCode Available	0	5
DAC: 2D-3D Retrieval with Noisy Labels via Divide-and-Conquer Alignment and Correction	Jul 25, 2024	cross-modal alignmentCross-Modal Retrieval	CodeCode Available	0	5
A coupled autoencoder approach for multi-modal analysis of cell types	Nov 6, 2019	Clusteringcross-modal alignment	CodeCode Available	0	5
It is Never Too Late to Mend: Separate Learning for Multimedia Recommendation	Jun 12, 2024	cross-modal alignmentMultimedia recommendation	CodeCode Available	0	5
MicarVLMoE: A Modern Gated Cross-Aligned Vision-Language Mixture of Experts Model for Medical Image Captioning and Report Generation	Apr 29, 2025	cross-modal alignmentDecoder	CodeCode Available	0	5
M^2ConceptBase: A Fine-Grained Aligned Concept-Centric Multimodal Knowledge Base	Dec 16, 2023	cross-modal alignmentKnowledge Graphs	CodeCode Available	0	5
Generating Image Descriptions via Sequential Cross-Modal Alignment Guided by Human Gaze	Nov 9, 2020	cross-modal alignmentImage Captioning	CodeCode Available	0	5
Listen Then See: Video Alignment with Speaker Attention	Apr 21, 2024	cross-modal alignmentQuestion Answering	CodeCode Available	0	5
Craft: Cross-modal Aligned Features Improve Robustness of Prompt Tuning	Jul 22, 2024	cross-modal alignment	CodeCode Available	0	5
LayoutLMv3: Pre-training for Document AI with Unified Text and Image Masking	Apr 18, 2022	cross-modal alignmentDocument AI	CodeCode Available	0	5
Learning Contextual Tag Embeddings for Cross-Modal Alignment of Audio and Tags	Oct 27, 2020	cross-modal alignmentRepresentation Learning	CodeCode Available	0	5
LoGoNet: Towards Accurate 3D Object Detection with Local-to-Global Cross-Modal Fusion	Mar 7, 2023	3D Object Detectioncross-modal alignment	CodeCode Available	0	5
Align before Search: Aligning Ads Image to Text for Accurate Cross-Modal Sponsored Search	Sep 28, 2023	cross-modal alignmentCross-Modal Retrieval	CodeCode Available	0	5
Contrast-augmented Diffusion Model with Fine-grained Sequence Alignment for Markup-to-Image Generation	Aug 2, 2023	cross-modal alignmentDenoising	CodeCode Available	0	5
KALE: An Artwork Image Captioning System Augmented with Heterogeneous Graph	Sep 17, 2024	cross-modal alignmentImage Captioning	CodeCode Available	0	5
Language-based Image Colorization: A Benchmark and Beyond	Mar 19, 2025	BenchmarkingColorization	CodeCode Available	0	5
Focus on Focus: Focus-oriented Representation Learning and Multi-view Cross-modal Alignment for Glioma Grading	Aug 16, 2024	Contrastive Learningcross-modal alignment	CodeCode Available	0	5
ICPL-ReID: Identity-Conditional Prompt Learning for Multi-Spectral Object Re-Identification	May 23, 2025	cross-modal alignmentPrompt Learning	CodeCode Available	0	5
KD-VLP: Improving End-to-End Vision-and-Language Pretraining with Object Knowledge Distillation	Sep 22, 2021	cross-modal alignmentKnowledge Distillation	CodeCode Available	0	5
HyperPath: Knowledge-Guided Hyperbolic Semantic Hierarchy Modeling for WSI Analysis	Jun 19, 2025	cross-modal alignmentMultiple Instance Learning	CodeCode Available	0	5
Improving Cross-Modal Alignment in Vision Language Navigation via Syntactic Information	Apr 19, 2021	cross-modal alignmentNavigate	CodeCode Available	0	5
Gaze-Guided Learning: Avoiding Shortcut Bias in Visual Classification	Apr 8, 2025	cross-modal alignmentImage Classification	CodeCode Available	0	5
Language-Guided Diffusion Model for Visual Grounding	Aug 18, 2023	cross-modal alignmentDenoising	CodeCode Available	0	5
Asymmetric Cross-Scale Alignment for Text-Based Person Search	Nov 26, 2022	cross-modal alignmentPerson Search	CodeCode Available	0	5
HCMA: Hierarchical Cross-model Alignment for Grounded Text-to-Image Generation	May 10, 2025	cross-modal alignmentImage Generation	CodeCode Available	0	5
Evaluating Semantic Variation in Text-to-Image Synthesis: A Causal Perspective	Oct 14, 2024	cross-modal alignmentImage Generation	CodeCode Available	0	5
Enhancing Visual Representation for Text-based Person Searching	Dec 30, 2024	cross-modal alignmentPerson Search	CodeCode Available	0	5

Show:10 25 50

← PrevPage 3 of 7Next →

No leaderboard results yet.