cross-modal alignment

Papers

Recently Added Most Hyped Most Active Needs Verification Most Verified

Showing 201–250 of 342 papers

Title	Date	Tasks	Status
Fully Aligned Network for Referring Image Segmentation	Sep 29, 2024	cross-modal alignmentDecoder	—Unverified
Fusing Cross-modal and Uni-modal Representations: A Kronecker Product Approach	Jun 10, 2025	cross-modal alignment	—Unverified
GALLa: Graph Aligned Large Language Models for Improved Source Code Understanding	Sep 6, 2024	cross-modal alignmentLanguage Modelling	—Unverified
GatedxLSTM: A Multimodal Affective Computing Approach for Emotion Recognition in Conversations	Mar 26, 2025	cross-modal alignmentEmotion Classification	—Unverified
Generalized Zero-Shot Classification via Semantics-Free Inter-Class Feature Generation	Jan 1, 2025	Classificationcross-modal alignment	—Unverified
Generating Vision-Language Navigation Instructions Incorporated Fine-Grained Alignment Annotations	Jun 10, 2025	cross-modal alignmentNavigate	—Unverified
GEXIA: Granularity Expansion and Iterative Approximation for Scalable Multi-grained Video-language Learning	Dec 10, 2024	cross-modal alignmentVideo Understanding	—Unverified
Hierarchical Cross-Modal Alignment for Open-Vocabulary 3D Object Detection	Mar 10, 2025	3D Object Detectioncross-modal alignment	—Unverified
Hire: Hybrid-modal Interaction with Multiple Relational Enhancements for Image-Text Matching	Jun 5, 2024	cross-modal alignmentImage-text matching	—Unverified
HiTeA: Hierarchical Temporal-Aware Video-Language Pre-training	Dec 30, 2022	cross-modal alignmentTGIF-Action	—Unverified
How do Cross-View and Cross-Modal Alignment Affect Representations in Contrastive Learning?	Nov 23, 2022	Contrastive Learningcross-modal alignment	—Unverified
Improving Cross-modal Alignment for Text-Guided Image Inpainting	Jan 26, 2023	cross-modal alignmentImage Inpainting	—Unverified
Improving Cross-modal Alignment with Synthetic Pairs for Text-only Image Captioning	Dec 14, 2023	cross-modal alignmentDecoder	—Unverified
Improving Medical Visual Representation Learning with Pathological-level Cross-Modal Alignment and Correlation Exploration	Jun 12, 2025	cross-modal alignmentImage to text	—Unverified
Improving speech translation by fusing speech and text	May 23, 2023	cross-modal alignmentMachine Translation	—Unverified
InfoMAE: Pair-Efficient Cross-Modal Alignment for Multimodal Time-Series Sensing Signals	Apr 13, 2025	cross-modal alignmentSelf-Supervised Learning	—Unverified
Integrate Temporal Graph Learning into LLM-based Temporal Knowledge Graph Model	Jan 21, 2025	cross-modal alignmentGraph Embedding	—Unverified
Intriguing Properties of Large Language and Vision Models	Oct 7, 2024	cross-modal alignmentLarge Language Model	—Unverified
JPG - Jointly Learn to Align: Automated Disease Prediction and Radiology Report Generation	Oct 1, 2022	cross-modal alignmentDisease Prediction	—Unverified
KD-VLP: Improving End-to-End Vision-and-Language Pretraining with Object Knowledge Distillation	Jan 16, 2022	cross-modal alignmentKnowledge Distillation	—Unverified
LangBridge: Interpreting Image as a Combination of Language Embeddings	Mar 25, 2025	cross-modal alignment	—Unverified
Linguistic Query-Guided Mask Generation for Referring Image Segmentation	Jan 16, 2023	Contrastive Learningcross-modal alignment	—Unverified
Learning Better Visual Representations for Weakly-Supervised Object Detection Using Natural Language Supervision	Sep 29, 2021	cross-modal alignmentobject-detection	—Unverified
Learning by Hallucinating: Vision-Language Pre-training with Weak Supervision	Oct 24, 2022	cross-modal alignmentCross-Modal Retrieval	—Unverified
Learning Joint Embedding with Modality Alignments for Cross-Modal Retrieval of Recipes and Food Images	Aug 9, 2021	cross-modal alignmentCross-Modal Retrieval	—Unverified
Learning Multi-Modal Nonlinear Embeddings: Performance Bounds and an Algorithm	Jun 3, 2020	cross-modal alignmentGeneral Classification	—Unverified
Learning to Localize Actions in Instructional Videos with LLM-Based Multi-Pathway Text-Video Alignment	Sep 22, 2024	Contrastive Learningcross-modal alignment	—Unverified
Let Me Finish My Sentence: Video Temporal Grounding with Holistic Text Understanding	Oct 17, 2024	cross-modal alignmentSentence	—Unverified
Prototype-guided Cross-modal Completion and Alignment for Incomplete Text-based Person Re-identification	Sep 29, 2023	cross-modal alignmentPerson Re-Identification	—Unverified
RAC3: Retrieval-Augmented Corner Case Comprehension for Autonomous Driving with Vision-Language Models	Dec 15, 2024	Autonomous DrivingContrastive Learning	—Unverified
Reinforcement Learning for Weakly Supervised Temporal Grounding of Natural Language in Untrimmed Videos	Sep 18, 2020	cross-modal alignmentreinforcement-learning	—Unverified
Representation Discrepancy Bridging Method for Remote Sensing Image-Text Retrieval	May 22, 2025	cross-modal alignmentImage-text Retrieval	—Unverified
Retrieving-to-Answer: Zero-Shot Video Question Answering with Frozen Large Language Models	Jun 15, 2023	cross-modal alignmentDomain Generalization	—Unverified
Revisiting Misalignment in Multispectral Pedestrian Detection: A Language-Driven Approach for Cross-modal Alignment Fusion	Nov 27, 2024	cross-modal alignmentPedestrian Detection	—Unverified
Scene-Intuitive Agent for Remote Embodied Visual Grounding	Mar 24, 2021	cross-modal alignmentNavigate	—Unverified
SE4Lip: Speech-Lip Encoder for Talking Head Synthesis to Solve Phoneme-Viseme Alignment Ambiguity	Apr 8, 2025	3DGScross-modal alignment	—Unverified
See What You See: Self-supervised Cross-modal Retrieval of Visual Stimuli from Brain Activity	Aug 7, 2022	cross-modal alignmentCross-Modal Retrieval	—Unverified
Self-supervised Feature Adaptation for 3D Industrial Anomaly Detection	Jan 6, 2024	Anomaly Detectioncross-modal alignment	—Unverified
Semantics-enhanced Cross-modal Masked Image Modeling for Vision-Language Pre-training	Mar 1, 2024	cross-modal alignmentRepresentation Learning	—Unverified
Semantic-Space-Intervened Diffusive Alignment for Visual Classification	May 9, 2025	Classificationcross-modal alignment	—Unverified
Separating Invisible Sounds Toward Universal Audiovisual Scene-Aware Sound Separation	Oct 18, 2023	cross-modal alignment	—Unverified
Shushing! Let's Imagine an Authentic Speech from the Silent Video	Mar 19, 2025	cross-modal alignmentLanguage Modeling	—Unverified
SMAUG: Sparse Masked Autoencoder for Efficient Video-Language Pre-training	Nov 21, 2022	cross-modal alignmentGPU	—Unverified
SoftCLIP: Softer Cross-modal Alignment Makes CLIP Stronger	Mar 30, 2023	cross-modal alignmentzero-shot-classification	—Unverified
Sound Source Localization is All about Cross-Modal Alignment	Sep 19, 2023	Allcross-modal alignment	—Unverified
Speech-Language Models with Decoupled Tokenizers and Multi-Token Prediction	Jun 14, 2025	cross-modal alignment	—Unverified
Speech-Text Dialog Pre-training for Spoken Dialog Understanding with Explicit Cross-Modal Alignment	May 19, 2023	cross-modal alignmentEmotion Recognition in Conversation	—Unverified
ST-BERT: Cross-modal Language Model Pre-training For End-to-end Spoken Language Understanding	Oct 23, 2020	cross-modal alignmentLanguage Modeling	—Unverified
Structured Multi-modal Feature Embedding and Alignment for Image-Sentence Retrieval	Aug 5, 2021	cross-modal alignmentRetrieval	—Unverified
SViQA: A Unified Speech-Vision Multimodal Model for Textless Visual Question Answering	Apr 1, 2025	cross-modal alignmentQuestion Answering	—Unverified

Show:10 25 50

← PrevPage 5 of 7Next →

No leaderboard results yet.