cross-modal alignment

Papers

Recently Added Most Hyped Most Active Needs Verification Most Verified

Showing 101–125 of 342 papers

Title	Date	Tasks	Status	Hype
Align and Prompt: Video-and-Language Pre-training with Entity Prompts	Dec 17, 2021	cross-modal alignmentEntity Alignment	CodeCode Available	1
Landmark-RxR: Solving Vision-and-Language Navigation with Fine-Grained Alignment Supervision	Dec 1, 2021	cross-modal alignmentNavigate	CodeCode Available	1
Dynamic Modality Interaction Modeling for Image-Text Retrieval	Jul 11, 2021	cross-modal alignmentCross-Modal Retrieval	CodeCode Available	1
EPMF: Efficient Perception-aware Multi-sensor Fusion for 3D Semantic Segmentation	Jun 21, 2021	3D Semantic SegmentationAutonomous Driving	CodeCode Available	1
DanceIt: Music-inspired Dancing Video Synthesis	Sep 17, 2020	cross-modal alignmentRhythm	CodeCode Available	1
Symbiotic Adversarial Learning for Attribute-based Person Search	Jul 19, 2020	Attributecross-modal alignment	CodeCode Available	1
Transformer-based Spatial Grounding: A Comprehensive Survey	Jul 17, 2025	cross-modal alignmentSurvey	—Unverified	0
CATVis: Context-Aware Thought Visualization	Jul 15, 2025	cross-modal alignmentEEG	—Unverified	0
Bridge Feature Matching and Cross-Modal Alignment with Mutual-filtering for Zero-shot Anomaly Detection	Jul 15, 2025	Anomaly ClassificationAnomaly Detection	—Unverified	0
Evaluating Attribute Confusion in Fashion Text-to-Image Generation	Jul 9, 2025	Attributecross-modal alignment	—Unverified	0
TSDASeg: A Two-Stage Model with Direct Alignment for Interactive Point Cloud Segmentation	Jun 26, 2025	cross-modal alignmentInteractive Segmentation	—Unverified	0
DALR: Dual-level Alignment Learning for Multimodal Sentence Representation Learning	Jun 26, 2025	cross-modal alignmentRepresentation Learning	—Unverified	0
HyperPath: Knowledge-Guided Hyperbolic Semantic Hierarchy Modeling for WSI Analysis	Jun 19, 2025	cross-modal alignmentMultiple Instance Learning	CodeCode Available	0
Speech-Language Models with Decoupled Tokenizers and Multi-Token Prediction	Jun 14, 2025	cross-modal alignment	—Unverified	0
TAViS: Text-bridged Audio-Visual Segmentation with Foundation Models	Jun 13, 2025	cross-modal alignmentSegmentation	—Unverified	0
Improving Medical Visual Representation Learning with Pathological-level Cross-Modal Alignment and Correlation Exploration	Jun 12, 2025	cross-modal alignmentImage to text	—Unverified	0
OmniDRCA: Parallel Speech-Text Foundation Model via Dual-Resolution Speech Representations and Contrastive Alignment	Jun 11, 2025	cross-modal alignmentQuestion Answering	CodeCode Available	0
Generating Vision-Language Navigation Instructions Incorporated Fine-Grained Alignment Annotations	Jun 10, 2025	cross-modal alignmentNavigate	—Unverified	0
Fusing Cross-modal and Uni-modal Representations: A Kronecker Product Approach	Jun 10, 2025	cross-modal alignment	—Unverified	0
WhisQ: Cross-Modal Representation Learning for Text-to-Music MOS Prediction	Jun 6, 2025	cross-modal alignmentLanguage Modeling	—Unverified	0
Does Your 3D Encoder Really Work? When Pretrain-SFT from 2D VLMs Meets 3D VLMs	Jun 5, 2025	cross-modal alignmentDense Captioning	—Unverified	0
Towards LLM-Centric Multimodal Fusion: A Survey on Integration Strategies and Techniques	Jun 5, 2025	cross-modal alignmentLarge Language Model	—Unverified	0
UniCUE: Unified Recognition and Generation Framework for Chinese Cued Speech Video-to-Speech Generation	Jun 4, 2025	cross-modal alignmentLipreading	—Unverified	0
EmotionRankCLAP: Bridging Natural Language Speaking Styles and Ordinal Speech Emotion via Rank-N-Contrast	May 29, 2025	Contrastive Learningcross-modal alignment	—Unverified	0
ALAS: Measuring Latent Speech-Text Alignment For Spoken Language Understanding In Multimodal LLMs	May 26, 2025	cross-modal alignmentEmotion Recognition	—Unverified	0

Show:10 25 50

← PrevPage 5 of 14Next →

No leaderboard results yet.