cross-modal alignment

Papers

Recently Added Most Hyped Most Active Needs Verification Most Verified

Showing 301–342 of 342 papers

Title	Date	Tasks	Status
Masked Vision and Language Modeling for Multi-modal Representation Learning	Aug 3, 2022	cross-modal alignmentLanguage Modeling	—Unverified
MCAD: Multi-teacher Cross-modal Alignment Distillation for efficient image-text retrieval	Oct 30, 2023	cross-modal alignmentImage-text Retrieval	—Unverified
MCQA: Multimodal Co-attention Based Network for Question Answering	Apr 25, 2020	cross-modal alignmentQuestion Answering	—Unverified
MDE: Modality Discrimination Enhancement for Multi-modal Recommendation	Feb 8, 2025	cross-modal alignmentMulti-modal Recommendation	—Unverified
Mind the Modality Gap: Towards a Remote Sensing Vision-Language Model via Cross-modal Alignment	Feb 15, 2024	cross-modal alignmentCross-Modal Retrieval	—Unverified
Distributionally Robust Alignment for Medical Federated Vision-Language Pre-training Under Data Heterogeneity	Apr 5, 2024	cross-modal alignmentFederated Learning	—Unverified
Mix and match networks: cross-modal alignment for zero-pair image-to-image translation	Mar 8, 2019	cross-modal alignmentDecoder	—Unverified
MLLM as Video Narrator: Mitigating Modality Imbalance in Video Moment Retrieval	Jun 25, 2024	cross-modal alignmentMoment Retrieval	—Unverified
MLLMs are Deeply Affected by Modality Bias	May 24, 2025	cross-modal alignment	—Unverified
Modeling the Human Visual System: Comparative Insights from Response-Optimized and Task-Optimized Vision Models, Language Models, and different Readout Mechanisms	Oct 17, 2024	cross-modal alignmentLarge Language Model	—Unverified
mSLAM: Massively multilingual joint pre-training for speech and text	Feb 3, 2022	cross-modal alignmentintent-classification	—Unverified
Multi-Grained Cross-modal Alignment for Learning Open-vocabulary Semantic Segmentation from Text Supervision	Mar 6, 2024	Contrastive Learningcross-modal alignment	—Unverified
Multi-level Cross-modal Alignment for Image Clustering	Jan 22, 2024	Clusteringcross-modal alignment	—Unverified
Multi-modal Attribute Prompting for Vision-Language Models	Mar 1, 2024	Attributecross-modal alignment	—Unverified
Multi-Modal Cross-Domain Alignment Network for Video Moment Retrieval	Sep 23, 2022	cross-modal alignmentInformation Retrieval	—Unverified
Multimodal Machine Learning in Mental Health: A Survey of Data, Algorithms, and Challenges	Jul 23, 2024	cross-modal alignmentFairness	—Unverified
Multimodal Reasoning with Multimodal Knowledge Graph	Jun 4, 2024	cross-modal alignmentGraph Attention	—Unverified
Multi-path Exploration and Feedback Adjustment for Text-to-Image Person Retrieval	Oct 26, 2024	cross-modal alignmentPerson Retrieval	—Unverified
Multi-Prompts Learning with Cross-Modal Alignment for Attribute-based Person Re-Identification	Dec 28, 2023	Attributecross-modal alignment	—Unverified
Multi-task Paired Masking with Alignment Modeling for Medical Vision-Language Pre-training	May 13, 2023	cross-modal alignment	—Unverified
NeuroLIP: Interpretable and Fair Cross-Modal Alignment of fMRI and Phenotypic Text	Mar 27, 2025	AttributeContrastive Learning	—Unverified
NEVLP: Noise-Robust Framework for Efficient Vision-Language Pre-training	Sep 15, 2024	Contrastive Learningcross-modal alignment	—Unverified
NOTA: Multimodal Music Notation Understanding for Visual Large Language Model	Feb 17, 2025	cross-modal alignmentLanguage Modeling	—Unverified
Observation-Graph Interaction and Key-Detail Guidance for Vision and Language Navigation	Mar 14, 2025	cross-modal alignmentNavigate	—Unverified
OMCAT: Omni Context Aware Transformer	Oct 15, 2024	Audio-visual Question AnsweringAudio-Visual Question Answering (AVQA)	—Unverified
OmniBind: Teach to Build Unequal-Scale Modality Interaction for Omni-Bind of All	May 25, 2024	Allcross-modal alignment	—Unverified
OmniVL:One Foundation Model for Image-Language and Video-Language Tasks	Sep 15, 2022	Action ClassificationAction Recognition	—Unverified
OneEncoder: A Lightweight Framework for Progressive Alignment of Modalities	Sep 17, 2024	cross-modal alignmentQuestion Answering	—Unverified
On the Language Encoder of Contrastive Cross-modal Models	Oct 20, 2023	cross-modal alignmentSentence	—Unverified
OpenSight: A Simple Open-Vocabulary Framework for LiDAR-Based Object Detection	Dec 12, 2023	cross-modal alignmentobject-detection	—Unverified
OV-SCAN: Semantically Consistent Alignment for Novel Object Discovery in Open-Vocabulary 3D Object Detection	Mar 9, 2025	3D Object DetectionAutonomous Driving	—Unverified
PhysLLM: Harnessing Large Language Models for Cross-Modal Remote Physiological Sensing	May 6, 2025	cross-modal alignment	—Unverified
PMMTalk: Speech-Driven 3D Facial Animation from Complementary Pseudo Multi-modal Features	Dec 5, 2023	cross-modal alignmentDecoder	—Unverified
Prompt-based Context- and Domain-aware Pretraining for Vision and Language Navigation	Sep 7, 2023	Contrastive Learningcross-modal alignment	—Unverified
Prototype-guided Cross-modal Completion and Alignment for Incomplete Text-based Person Re-identification	Sep 29, 2023	cross-modal alignmentPerson Re-Identification	—Unverified
RAC3: Retrieval-Augmented Corner Case Comprehension for Autonomous Driving with Vision-Language Models	Dec 15, 2024	Autonomous DrivingContrastive Learning	—Unverified
Reinforcement Learning for Weakly Supervised Temporal Grounding of Natural Language in Untrimmed Videos	Sep 18, 2020	cross-modal alignmentreinforcement-learning	—Unverified
Representation Discrepancy Bridging Method for Remote Sensing Image-Text Retrieval	May 22, 2025	cross-modal alignmentImage-text Retrieval	—Unverified
Retrieving-to-Answer: Zero-Shot Video Question Answering with Frozen Large Language Models	Jun 15, 2023	cross-modal alignmentDomain Generalization	—Unverified
Revisiting Misalignment in Multispectral Pedestrian Detection: A Language-Driven Approach for Cross-modal Alignment Fusion	Nov 27, 2024	cross-modal alignmentPedestrian Detection	—Unverified
Scene-Intuitive Agent for Remote Embodied Visual Grounding	Mar 24, 2021	cross-modal alignmentNavigate	—Unverified
SE4Lip: Speech-Lip Encoder for Talking Head Synthesis to Solve Phoneme-Viseme Alignment Ambiguity	Apr 8, 2025	3DGScross-modal alignment	—Unverified

Show:10 25 50

← PrevPage 7 of 7Next →

No leaderboard results yet.