cross-modal alignment

Papers

Recently Added Most Hyped Most Active Needs Verification Most Verified

Showing 151–175 of 342 papers

Title	Date	Tasks	Status	Score
HyperPath: Knowledge-Guided Hyperbolic Semantic Hierarchy Modeling for WSI Analysis	Jun 19, 2025	cross-modal alignmentMultiple Instance Learning	CodeCode Available	5
ICPL-ReID: Identity-Conditional Prompt Learning for Multi-Spectral Object Re-Identification	May 23, 2025	cross-modal alignmentPrompt Learning	CodeCode Available	5
See What You See: Self-supervised Cross-modal Retrieval of Visual Stimuli from Brain Activity	Aug 7, 2022	cross-modal alignmentCross-Modal Retrieval	—Unverified	0
Self-supervised Feature Adaptation for 3D Industrial Anomaly Detection	Jan 6, 2024	Anomaly Detectioncross-modal alignment	—Unverified	0
Semantics-enhanced Cross-modal Masked Image Modeling for Vision-Language Pre-training	Mar 1, 2024	cross-modal alignmentRepresentation Learning	—Unverified	0
Semantic-Space-Intervened Diffusive Alignment for Visual Classification	May 9, 2025	Classificationcross-modal alignment	—Unverified	0
Separating Invisible Sounds Toward Universal Audiovisual Scene-Aware Sound Separation	Oct 18, 2023	cross-modal alignment	—Unverified	0
Shushing! Let's Imagine an Authentic Speech from the Silent Video	Mar 19, 2025	cross-modal alignmentLanguage Modeling	—Unverified	0
SMAUG: Sparse Masked Autoencoder for Efficient Video-Language Pre-training	Nov 21, 2022	cross-modal alignmentGPU	—Unverified	0
SoftCLIP: Softer Cross-modal Alignment Makes CLIP Stronger	Mar 30, 2023	cross-modal alignmentzero-shot-classification	—Unverified	0
Sound Source Localization is All about Cross-Modal Alignment	Sep 19, 2023	Allcross-modal alignment	—Unverified	0
Speech-Language Models with Decoupled Tokenizers and Multi-Token Prediction	Jun 14, 2025	cross-modal alignment	—Unverified	0
Speech-Text Dialog Pre-training for Spoken Dialog Understanding with Explicit Cross-Modal Alignment	May 19, 2023	cross-modal alignmentEmotion Recognition in Conversation	—Unverified	0
ST-BERT: Cross-modal Language Model Pre-training For End-to-end Spoken Language Understanding	Oct 23, 2020	cross-modal alignmentLanguage Modeling	—Unverified	0
Structured Multi-modal Feature Embedding and Alignment for Image-Sentence Retrieval	Aug 5, 2021	cross-modal alignmentRetrieval	—Unverified	0
SViQA: A Unified Speech-Vision Multimodal Model for Textless Visual Question Answering	Apr 1, 2025	cross-modal alignmentQuestion Answering	—Unverified	0
TANGO: Co-Speech Gesture Video Reenactment with Hierarchical Audio Motion Embedding and Diffusion Interpolation	Oct 5, 2024	cross-modal alignmentRetrieval	—Unverified	0
TAViS: Text-bridged Audio-Visual Segmentation with Foundation Models	Jun 13, 2025	cross-modal alignmentSegmentation	—Unverified	0
Temporal Order Preserved Optimal Transport-based Cross-modal Knowledge Transfer Learning for ASR	Sep 3, 2024	Automatic Speech RecognitionAutomatic Speech Recognition (ASR)	—Unverified	0
Tiny-Align: Bridging Automatic Speech Recognition and Large Language Model on the Edge	Nov 21, 2024	Automatic Speech RecognitionAutomatic Speech Recognition (ASR)	—Unverified	0
TMCIR: Token Merge Benefits Composed Image Retrieval	Apr 15, 2025	Contrastive Learningcross-modal alignment	—Unverified	0
TokenFlow: Rethinking Fine-grained Cross-modal Alignment in Vision-Language Retrieval	Sep 28, 2022	cross-modal alignmentRetrieval	—Unverified	0
TOT: Topology-Aware Optimal Transport For Multimodal Hate Detection	Feb 27, 2023	cross-modal alignment	—Unverified	0
Towards High-Fidelity Text-Guided 3D Face Generation and Manipulation Using only Images	Aug 31, 2023	3D Shape GenerationContrastive Learning	—Unverified	0
Towards LLM-Centric Multimodal Fusion: A Survey on Integration Strategies and Techniques	Jun 5, 2025	cross-modal alignmentLarge Language Model	—Unverified	0

Show:10 25 50

← PrevPage 7 of 14Next →

No leaderboard results yet.