cross-modal alignment

Papers

Recently Added Most Hyped Most Active Needs Verification Most Verified

Showing 226–250 of 342 papers

Title	Date	Tasks	Status
Learning Multi-Modal Nonlinear Embeddings: Performance Bounds and an Algorithm	Jun 3, 2020	cross-modal alignmentGeneral Classification	—Unverified
Learning to Localize Actions in Instructional Videos with LLM-Based Multi-Pathway Text-Video Alignment	Sep 22, 2024	Contrastive Learningcross-modal alignment	—Unverified
Let Me Finish My Sentence: Video Temporal Grounding with Holistic Text Understanding	Oct 17, 2024	cross-modal alignmentSentence	—Unverified
Prototype-guided Cross-modal Completion and Alignment for Incomplete Text-based Person Re-identification	Sep 29, 2023	cross-modal alignmentPerson Re-Identification	—Unverified
RAC3: Retrieval-Augmented Corner Case Comprehension for Autonomous Driving with Vision-Language Models	Dec 15, 2024	Autonomous DrivingContrastive Learning	—Unverified
Reinforcement Learning for Weakly Supervised Temporal Grounding of Natural Language in Untrimmed Videos	Sep 18, 2020	cross-modal alignmentreinforcement-learning	—Unverified
Representation Discrepancy Bridging Method for Remote Sensing Image-Text Retrieval	May 22, 2025	cross-modal alignmentImage-text Retrieval	—Unverified
Retrieving-to-Answer: Zero-Shot Video Question Answering with Frozen Large Language Models	Jun 15, 2023	cross-modal alignmentDomain Generalization	—Unverified
Revisiting Misalignment in Multispectral Pedestrian Detection: A Language-Driven Approach for Cross-modal Alignment Fusion	Nov 27, 2024	cross-modal alignmentPedestrian Detection	—Unverified
Scene-Intuitive Agent for Remote Embodied Visual Grounding	Mar 24, 2021	cross-modal alignmentNavigate	—Unverified
SE4Lip: Speech-Lip Encoder for Talking Head Synthesis to Solve Phoneme-Viseme Alignment Ambiguity	Apr 8, 2025	3DGScross-modal alignment	—Unverified
See What You See: Self-supervised Cross-modal Retrieval of Visual Stimuli from Brain Activity	Aug 7, 2022	cross-modal alignmentCross-Modal Retrieval	—Unverified
Self-supervised Feature Adaptation for 3D Industrial Anomaly Detection	Jan 6, 2024	Anomaly Detectioncross-modal alignment	—Unverified
Semantics-enhanced Cross-modal Masked Image Modeling for Vision-Language Pre-training	Mar 1, 2024	cross-modal alignmentRepresentation Learning	—Unverified
Semantic-Space-Intervened Diffusive Alignment for Visual Classification	May 9, 2025	Classificationcross-modal alignment	—Unverified
Separating Invisible Sounds Toward Universal Audiovisual Scene-Aware Sound Separation	Oct 18, 2023	cross-modal alignment	—Unverified
Shushing! Let's Imagine an Authentic Speech from the Silent Video	Mar 19, 2025	cross-modal alignmentLanguage Modeling	—Unverified
SMAUG: Sparse Masked Autoencoder for Efficient Video-Language Pre-training	Nov 21, 2022	cross-modal alignmentGPU	—Unverified
SoftCLIP: Softer Cross-modal Alignment Makes CLIP Stronger	Mar 30, 2023	cross-modal alignmentzero-shot-classification	—Unverified
Sound Source Localization is All about Cross-Modal Alignment	Sep 19, 2023	Allcross-modal alignment	—Unverified
Speech-Language Models with Decoupled Tokenizers and Multi-Token Prediction	Jun 14, 2025	cross-modal alignment	—Unverified
Speech-Text Dialog Pre-training for Spoken Dialog Understanding with Explicit Cross-Modal Alignment	May 19, 2023	cross-modal alignmentEmotion Recognition in Conversation	—Unverified
ST-BERT: Cross-modal Language Model Pre-training For End-to-end Spoken Language Understanding	Oct 23, 2020	cross-modal alignmentLanguage Modeling	—Unverified
Structured Multi-modal Feature Embedding and Alignment for Image-Sentence Retrieval	Aug 5, 2021	cross-modal alignmentRetrieval	—Unverified
SViQA: A Unified Speech-Vision Multimodal Model for Textless Visual Question Answering	Apr 1, 2025	cross-modal alignmentQuestion Answering	—Unverified

Show:10 25 50

← PrevPage 10 of 14Next →

No leaderboard results yet.