cross-modal alignment

Papers

Recently Added Most Hyped Most Active Needs Verification Most Verified

Showing 251–300 of 342 papers

Title	Date	Tasks	Status
TANGO: Co-Speech Gesture Video Reenactment with Hierarchical Audio Motion Embedding and Diffusion Interpolation	Oct 5, 2024	cross-modal alignmentRetrieval	—Unverified
TAViS: Text-bridged Audio-Visual Segmentation with Foundation Models	Jun 13, 2025	cross-modal alignmentSegmentation	—Unverified
Temporal Order Preserved Optimal Transport-based Cross-modal Knowledge Transfer Learning for ASR	Sep 3, 2024	Automatic Speech RecognitionAutomatic Speech Recognition (ASR)	—Unverified
Tiny-Align: Bridging Automatic Speech Recognition and Large Language Model on the Edge	Nov 21, 2024	Automatic Speech RecognitionAutomatic Speech Recognition (ASR)	—Unverified
TMCIR: Token Merge Benefits Composed Image Retrieval	Apr 15, 2025	Contrastive Learningcross-modal alignment	—Unverified
TokenFlow: Rethinking Fine-grained Cross-modal Alignment in Vision-Language Retrieval	Sep 28, 2022	cross-modal alignmentRetrieval	—Unverified
TOT: Topology-Aware Optimal Transport For Multimodal Hate Detection	Feb 27, 2023	cross-modal alignment	—Unverified
Towards High-Fidelity Text-Guided 3D Face Generation and Manipulation Using only Images	Aug 31, 2023	3D Shape GenerationContrastive Learning	—Unverified
Towards LLM-Centric Multimodal Fusion: A Survey on Integration Strategies and Techniques	Jun 5, 2025	cross-modal alignmentLarge Language Model	—Unverified
Transformer-based Spatial Grounding: A Comprehensive Survey	Jul 17, 2025	cross-modal alignmentSurvey	—Unverified
Translation, Scale and Rotation: Cross-Modal Alignment Meets RGB-Infrared Vehicle Detection	Sep 28, 2022	2D Object Detectioncross-modal alignment	—Unverified
TSDASeg: A Two-Stage Model with Direct Alignment for Interactive Point Cloud Segmentation	Jun 26, 2025	cross-modal alignmentInteractive Segmentation	—Unverified
TS-HTFA: Advancing Time Series Forecasting via Hierarchical Text-Free Alignment with Large Language Models	Sep 23, 2024	Contrastive Learningcross-modal alignment	—Unverified
UniCUE: Unified Recognition and Generation Framework for Chinese Cued Speech Video-to-Speech Generation	Jun 4, 2025	cross-modal alignmentLipreading	—Unverified
Unifying Visual and Semantic Feature Spaces with Diffusion Models for Enhanced Cross-Modal Alignment	Jul 26, 2024	cross-modal alignmentimage-classification	—Unverified
UniGS: Unified Language-Image-3D Pretraining with Gaussian Splatting	Feb 25, 2025	3DGScross-modal alignment	—Unverified
Unsupervised Cross-Modal Alignment of Speech and Text Embedding Spaces	May 18, 2018	Automatic Speech RecognitionAutomatic Speech Recognition (ASR)	—Unverified
Video Referring Expression Comprehension via Transformer with Content-aware Query	Oct 6, 2022	cross-modal alignmentReferring Expression	—Unverified
Video Referring Expression Comprehension via Transformer with Content-conditioned Query	Oct 25, 2023	cross-modal alignmentReferring Expression	—Unverified
ViTaPEs: Visuotactile Position Encodings for Cross-Modal Alignment in Multimodal Transformers	May 26, 2025	cross-modal alignmentPosition	—Unverified
VLMixer: Unpaired Vision-Language Pre-training via Cross-Modal CutMix	Jun 17, 2022	Contrastive Learningcross-modal alignment	—Unverified
VLMT: Vision-Language Multimodal Transformer for Multimodal Multi-hop Question Answering	Apr 11, 2025	cross-modal alignmentInformation Retrieval	—Unverified
Wearable Accelerometer Foundation Models for Health via Knowledge Distillation	Dec 15, 2024	Activity Recognitioncross-modal alignment	—Unverified
WhisQ: Cross-Modal Representation Learning for Text-to-Music MOS Prediction	Jun 6, 2025	cross-modal alignmentLanguage Modeling	—Unverified
Multi-level Cross-modal Alignment for Image Clustering	Jan 22, 2024	Clusteringcross-modal alignment	—Unverified
Multi-modal Attribute Prompting for Vision-Language Models	Mar 1, 2024	Attributecross-modal alignment	—Unverified
Multi-Modal Cross-Domain Alignment Network for Video Moment Retrieval	Sep 23, 2022	cross-modal alignmentInformation Retrieval	—Unverified
Multimodal Machine Learning in Mental Health: A Survey of Data, Algorithms, and Challenges	Jul 23, 2024	cross-modal alignmentFairness	—Unverified
Multimodal Reasoning with Multimodal Knowledge Graph	Jun 4, 2024	cross-modal alignmentGraph Attention	—Unverified
Multi-path Exploration and Feedback Adjustment for Text-to-Image Person Retrieval	Oct 26, 2024	cross-modal alignmentPerson Retrieval	—Unverified
Multi-Prompts Learning with Cross-Modal Alignment for Attribute-based Person Re-Identification	Dec 28, 2023	Attributecross-modal alignment	—Unverified
Multi-task Paired Masking with Alignment Modeling for Medical Vision-Language Pre-training	May 13, 2023	cross-modal alignment	—Unverified
NeuroLIP: Interpretable and Fair Cross-Modal Alignment of fMRI and Phenotypic Text	Mar 27, 2025	AttributeContrastive Learning	—Unverified
NEVLP: Noise-Robust Framework for Efficient Vision-Language Pre-training	Sep 15, 2024	Contrastive Learningcross-modal alignment	—Unverified
NOTA: Multimodal Music Notation Understanding for Visual Large Language Model	Feb 17, 2025	cross-modal alignmentLanguage Modeling	—Unverified
Observation-Graph Interaction and Key-Detail Guidance for Vision and Language Navigation	Mar 14, 2025	cross-modal alignmentNavigate	—Unverified
OMCAT: Omni Context Aware Transformer	Oct 15, 2024	Audio-visual Question AnsweringAudio-Visual Question Answering (AVQA)	—Unverified
OmniBind: Teach to Build Unequal-Scale Modality Interaction for Omni-Bind of All	May 25, 2024	Allcross-modal alignment	—Unverified
OmniVL:One Foundation Model for Image-Language and Video-Language Tasks	Sep 15, 2022	Action ClassificationAction Recognition	—Unverified
OneEncoder: A Lightweight Framework for Progressive Alignment of Modalities	Sep 17, 2024	cross-modal alignmentQuestion Answering	—Unverified
On the Language Encoder of Contrastive Cross-modal Models	Oct 20, 2023	cross-modal alignmentSentence	—Unverified
OpenSight: A Simple Open-Vocabulary Framework for LiDAR-Based Object Detection	Dec 12, 2023	cross-modal alignmentobject-detection	—Unverified
OV-SCAN: Semantically Consistent Alignment for Novel Object Discovery in Open-Vocabulary 3D Object Detection	Mar 9, 2025	3D Object DetectionAutonomous Driving	—Unverified
PhysLLM: Harnessing Large Language Models for Cross-Modal Remote Physiological Sensing	May 6, 2025	cross-modal alignment	—Unverified
PMMTalk: Speech-Driven 3D Facial Animation from Complementary Pseudo Multi-modal Features	Dec 5, 2023	cross-modal alignmentDecoder	—Unverified
Prompt-based Context- and Domain-aware Pretraining for Vision and Language Navigation	Sep 7, 2023	Contrastive Learningcross-modal alignment	—Unverified
MicarVLMoE: A Modern Gated Cross-Aligned Vision-Language Mixture of Experts Model for Medical Image Captioning and Report Generation	Apr 29, 2025	cross-modal alignmentDecoder	CodeCode Available
HCMA: Hierarchical Cross-model Alignment for Grounded Text-to-Image Generation	May 10, 2025	cross-modal alignmentImage Generation	CodeCode Available
Generating Image Descriptions via Sequential Cross-Modal Alignment Guided by Human Gaze	Nov 9, 2020	cross-modal alignmentImage Captioning	CodeCode Available
Unsupervised Cross-Modal Alignment for Multi-Person 3D Pose Estimation	Aug 4, 2020	2D Pose Estimation3D Human Pose Estimation	CodeCode Available

Show:10 25 50

← PrevPage 6 of 7Next →

No leaderboard results yet.