cross-modal alignment

Papers

Recently Added Most Hyped Most Active Needs Verification Most Verified

Showing 176–200 of 342 papers

Title	Date	Tasks	Status
Transformer-based Spatial Grounding: A Comprehensive Survey	Jul 17, 2025	cross-modal alignmentSurvey	—Unverified
Translation, Scale and Rotation: Cross-Modal Alignment Meets RGB-Infrared Vehicle Detection	Sep 28, 2022	2D Object Detectioncross-modal alignment	—Unverified
TSDASeg: A Two-Stage Model with Direct Alignment for Interactive Point Cloud Segmentation	Jun 26, 2025	cross-modal alignmentInteractive Segmentation	—Unverified
TS-HTFA: Advancing Time Series Forecasting via Hierarchical Text-Free Alignment with Large Language Models	Sep 23, 2024	Contrastive Learningcross-modal alignment	—Unverified
UniCUE: Unified Recognition and Generation Framework for Chinese Cued Speech Video-to-Speech Generation	Jun 4, 2025	cross-modal alignmentLipreading	—Unverified
Unifying Visual and Semantic Feature Spaces with Diffusion Models for Enhanced Cross-Modal Alignment	Jul 26, 2024	cross-modal alignmentimage-classification	—Unverified
UniGS: Unified Language-Image-3D Pretraining with Gaussian Splatting	Feb 25, 2025	3DGScross-modal alignment	—Unverified
Unsupervised Cross-Modal Alignment of Speech and Text Embedding Spaces	May 18, 2018	Automatic Speech RecognitionAutomatic Speech Recognition (ASR)	—Unverified
Video Referring Expression Comprehension via Transformer with Content-aware Query	Oct 6, 2022	cross-modal alignmentReferring Expression	—Unverified
Video Referring Expression Comprehension via Transformer with Content-conditioned Query	Oct 25, 2023	cross-modal alignmentReferring Expression	—Unverified
ViTaPEs: Visuotactile Position Encodings for Cross-Modal Alignment in Multimodal Transformers	May 26, 2025	cross-modal alignmentPosition	—Unverified
VLMixer: Unpaired Vision-Language Pre-training via Cross-Modal CutMix	Jun 17, 2022	Contrastive Learningcross-modal alignment	—Unverified
VLMT: Vision-Language Multimodal Transformer for Multimodal Multi-hop Question Answering	Apr 11, 2025	cross-modal alignmentInformation Retrieval	—Unverified
Wearable Accelerometer Foundation Models for Health via Knowledge Distillation	Dec 15, 2024	Activity Recognitioncross-modal alignment	—Unverified
WhisQ: Cross-Modal Representation Learning for Text-to-Music MOS Prediction	Jun 6, 2025	cross-modal alignmentLanguage Modeling	—Unverified
WiCo: Win-win Cooperation of Bottom-up and Top-down Referring Image Segmentation	Jun 19, 2023	cross-modal alignmentImage Segmentation	—Unverified
Language Model Mapping in Multimodal Music Learning: A Grand Challenge Proposal	Mar 1, 2025	cross-modal alignmentLanguage Modeling	—Unverified
VISTA: Enhancing Vision-Text Alignment in MLLMs via Cross-Modal Mutual Information Maximization	May 16, 2025	cross-modal alignmentMME	—Unverified
FALCON: False-Negative Aware Learning of Contrastive Negatives in Vision-Language Pretraining	May 16, 2025	cross-modal alignment	—Unverified
4D-ACFNet: A 4D Attention Mechanism-Based Prognostic Framework for Colorectal Cancer Liver Metastasis Integrating Multimodal Spatiotemporal Features	Mar 12, 2025	cross-modal alignmentDisentanglement	—Unverified
ACMM: Aligned Cross-Modal Memory for Few-Shot Image and Sentence Matching	Oct 1, 2019	cross-modal alignmentSentence	—Unverified
ALAS: Measuring Latent Speech-Text Alignment For Spoken Language Understanding In Multimodal LLMs	May 26, 2025	cross-modal alignmentEmotion Recognition	—Unverified
AlignGPT: Multi-modal Large Language Models with Adaptive Alignment Capability	May 23, 2024	cross-modal alignmentLanguage Modelling	—Unverified
AlignMamba: Enhancing Multimodal Mamba with Local and Global Cross-modal Alignment	Dec 1, 2024	cross-modal alignmentMamba	—Unverified
AlignSTS: Speech-to-Singing Conversion via Cross-Modal Alignment	May 8, 2023	cross-modal alignmentRhythm	—Unverified

Show:10 25 50

← PrevPage 8 of 14Next →

No leaderboard results yet.