cross-modal alignment

Papers

Recently Added Most Hyped Most Active Needs Verification Most Verified

Showing 151–200 of 342 papers

Title	Date	Tasks	Status	Score
HyperPath: Knowledge-Guided Hyperbolic Semantic Hierarchy Modeling for WSI Analysis	Jun 19, 2025	cross-modal alignmentMultiple Instance Learning	CodeCode Available	5
ICPL-ReID: Identity-Conditional Prompt Learning for Multi-Spectral Object Re-Identification	May 23, 2025	cross-modal alignmentPrompt Learning	CodeCode Available	5
See What You See: Self-supervised Cross-modal Retrieval of Visual Stimuli from Brain Activity	Aug 7, 2022	cross-modal alignmentCross-Modal Retrieval	—Unverified	0
Self-supervised Feature Adaptation for 3D Industrial Anomaly Detection	Jan 6, 2024	Anomaly Detectioncross-modal alignment	—Unverified	0
Semantics-enhanced Cross-modal Masked Image Modeling for Vision-Language Pre-training	Mar 1, 2024	cross-modal alignmentRepresentation Learning	—Unverified	0
Semantic-Space-Intervened Diffusive Alignment for Visual Classification	May 9, 2025	Classificationcross-modal alignment	—Unverified	0
Separating Invisible Sounds Toward Universal Audiovisual Scene-Aware Sound Separation	Oct 18, 2023	cross-modal alignment	—Unverified	0
Shushing! Let's Imagine an Authentic Speech from the Silent Video	Mar 19, 2025	cross-modal alignmentLanguage Modeling	—Unverified	0
SMAUG: Sparse Masked Autoencoder for Efficient Video-Language Pre-training	Nov 21, 2022	cross-modal alignmentGPU	—Unverified	0
SoftCLIP: Softer Cross-modal Alignment Makes CLIP Stronger	Mar 30, 2023	cross-modal alignmentzero-shot-classification	—Unverified	0
Sound Source Localization is All about Cross-Modal Alignment	Sep 19, 2023	Allcross-modal alignment	—Unverified	0
Speech-Language Models with Decoupled Tokenizers and Multi-Token Prediction	Jun 14, 2025	cross-modal alignment	—Unverified	0
Speech-Text Dialog Pre-training for Spoken Dialog Understanding with Explicit Cross-Modal Alignment	May 19, 2023	cross-modal alignmentEmotion Recognition in Conversation	—Unverified	0
ST-BERT: Cross-modal Language Model Pre-training For End-to-end Spoken Language Understanding	Oct 23, 2020	cross-modal alignmentLanguage Modeling	—Unverified	0
Structured Multi-modal Feature Embedding and Alignment for Image-Sentence Retrieval	Aug 5, 2021	cross-modal alignmentRetrieval	—Unverified	0
SViQA: A Unified Speech-Vision Multimodal Model for Textless Visual Question Answering	Apr 1, 2025	cross-modal alignmentQuestion Answering	—Unverified	0
TANGO: Co-Speech Gesture Video Reenactment with Hierarchical Audio Motion Embedding and Diffusion Interpolation	Oct 5, 2024	cross-modal alignmentRetrieval	—Unverified	0
TAViS: Text-bridged Audio-Visual Segmentation with Foundation Models	Jun 13, 2025	cross-modal alignmentSegmentation	—Unverified	0
Temporal Order Preserved Optimal Transport-based Cross-modal Knowledge Transfer Learning for ASR	Sep 3, 2024	Automatic Speech RecognitionAutomatic Speech Recognition (ASR)	—Unverified	0
Tiny-Align: Bridging Automatic Speech Recognition and Large Language Model on the Edge	Nov 21, 2024	Automatic Speech RecognitionAutomatic Speech Recognition (ASR)	—Unverified	0
TMCIR: Token Merge Benefits Composed Image Retrieval	Apr 15, 2025	Contrastive Learningcross-modal alignment	—Unverified	0
TokenFlow: Rethinking Fine-grained Cross-modal Alignment in Vision-Language Retrieval	Sep 28, 2022	cross-modal alignmentRetrieval	—Unverified	0
TOT: Topology-Aware Optimal Transport For Multimodal Hate Detection	Feb 27, 2023	cross-modal alignment	—Unverified	0
Towards High-Fidelity Text-Guided 3D Face Generation and Manipulation Using only Images	Aug 31, 2023	3D Shape GenerationContrastive Learning	—Unverified	0
Towards LLM-Centric Multimodal Fusion: A Survey on Integration Strategies and Techniques	Jun 5, 2025	cross-modal alignmentLarge Language Model	—Unverified	0
Transformer-based Spatial Grounding: A Comprehensive Survey	Jul 17, 2025	cross-modal alignmentSurvey	—Unverified	0
Translation, Scale and Rotation: Cross-Modal Alignment Meets RGB-Infrared Vehicle Detection	Sep 28, 2022	2D Object Detectioncross-modal alignment	—Unverified	0
TSDASeg: A Two-Stage Model with Direct Alignment for Interactive Point Cloud Segmentation	Jun 26, 2025	cross-modal alignmentInteractive Segmentation	—Unverified	0
TS-HTFA: Advancing Time Series Forecasting via Hierarchical Text-Free Alignment with Large Language Models	Sep 23, 2024	Contrastive Learningcross-modal alignment	—Unverified	0
UniCUE: Unified Recognition and Generation Framework for Chinese Cued Speech Video-to-Speech Generation	Jun 4, 2025	cross-modal alignmentLipreading	—Unverified	0
Unifying Visual and Semantic Feature Spaces with Diffusion Models for Enhanced Cross-Modal Alignment	Jul 26, 2024	cross-modal alignmentimage-classification	—Unverified	0
UniGS: Unified Language-Image-3D Pretraining with Gaussian Splatting	Feb 25, 2025	3DGScross-modal alignment	—Unverified	0
Unsupervised Cross-Modal Alignment of Speech and Text Embedding Spaces	May 18, 2018	Automatic Speech RecognitionAutomatic Speech Recognition (ASR)	—Unverified	0
Video Referring Expression Comprehension via Transformer with Content-aware Query	Oct 6, 2022	cross-modal alignmentReferring Expression	—Unverified	0
Video Referring Expression Comprehension via Transformer with Content-conditioned Query	Oct 25, 2023	cross-modal alignmentReferring Expression	—Unverified	0
ViTaPEs: Visuotactile Position Encodings for Cross-Modal Alignment in Multimodal Transformers	May 26, 2025	cross-modal alignmentPosition	—Unverified	0
VLMixer: Unpaired Vision-Language Pre-training via Cross-Modal CutMix	Jun 17, 2022	Contrastive Learningcross-modal alignment	—Unverified	0
VLMT: Vision-Language Multimodal Transformer for Multimodal Multi-hop Question Answering	Apr 11, 2025	cross-modal alignmentInformation Retrieval	—Unverified	0
Wearable Accelerometer Foundation Models for Health via Knowledge Distillation	Dec 15, 2024	Activity Recognitioncross-modal alignment	—Unverified	0
WhisQ: Cross-Modal Representation Learning for Text-to-Music MOS Prediction	Jun 6, 2025	cross-modal alignmentLanguage Modeling	—Unverified	0
WiCo: Win-win Cooperation of Bottom-up and Top-down Referring Image Segmentation	Jun 19, 2023	cross-modal alignmentImage Segmentation	—Unverified	0
Language Model Mapping in Multimodal Music Learning: A Grand Challenge Proposal	Mar 1, 2025	cross-modal alignmentLanguage Modeling	—Unverified	0
VISTA: Enhancing Vision-Text Alignment in MLLMs via Cross-Modal Mutual Information Maximization	May 16, 2025	cross-modal alignmentMME	—Unverified	0
FALCON: False-Negative Aware Learning of Contrastive Negatives in Vision-Language Pretraining	May 16, 2025	cross-modal alignment	—Unverified	0
4D-ACFNet: A 4D Attention Mechanism-Based Prognostic Framework for Colorectal Cancer Liver Metastasis Integrating Multimodal Spatiotemporal Features	Mar 12, 2025	cross-modal alignmentDisentanglement	—Unverified	0
ACMM: Aligned Cross-Modal Memory for Few-Shot Image and Sentence Matching	Oct 1, 2019	cross-modal alignmentSentence	—Unverified	0
ALAS: Measuring Latent Speech-Text Alignment For Spoken Language Understanding In Multimodal LLMs	May 26, 2025	cross-modal alignmentEmotion Recognition	—Unverified	0
AlignGPT: Multi-modal Large Language Models with Adaptive Alignment Capability	May 23, 2024	cross-modal alignmentLanguage Modelling	—Unverified	0
AlignMamba: Enhancing Multimodal Mamba with Local and Global Cross-modal Alignment	Dec 1, 2024	cross-modal alignmentMamba	—Unverified	0
AlignSTS: Speech-to-Singing Conversion via Cross-Modal Alignment	May 8, 2023	cross-modal alignmentRhythm	—Unverified	0

Show:10 25 50

← PrevPage 4 of 7Next →

No leaderboard results yet.