cross-modal alignment

Papers

Recently Added Most Hyped Most Active Needs Verification Most Verified

Showing 201–250 of 342 papers

Title	Date	Tasks	Status
Enhancing Modality Representation and Alignment for Multimodal Cold-start Active Learning	Dec 12, 2024	Active Learningcross-modal alignment	—Unverified
GEXIA: Granularity Expansion and Iterative Approximation for Scalable Multi-grained Video-language Learning	Dec 10, 2024	cross-modal alignmentVideo Understanding	—Unverified
Towards Brain Passage Retrieval -- An Investigation of EEG Query Representations	Dec 9, 2024	cross-modal alignmentEEG	—Unverified
CLIP-PING: Boosting Lightweight Vision-Language Models with Proximus Intrinsic Neighbors Guidance	Dec 5, 2024	Contrastive Learningcross-modal alignment	—Unverified
AlignMamba: Enhancing Multimodal Mamba with Local and Global Cross-modal Alignment	Dec 1, 2024	cross-modal alignmentMamba	—Unverified
Revisiting Misalignment in Multispectral Pedestrian Detection: A Language-Driven Approach for Cross-modal Alignment Fusion	Nov 27, 2024	cross-modal alignmentPedestrian Detection	—Unverified
Tiny-Align: Bridging Automatic Speech Recognition and Large Language Model on the Edge	Nov 21, 2024	Automatic Speech RecognitionAutomatic Speech Recognition (ASR)	—Unverified
CTPD: Cross-Modal Temporal Pattern Discovery for Enhanced Multimodal Electronic Health Records Analysis	Nov 1, 2024	cross-modal alignmentPhenotype classification	—Unverified
Towards Cross-Modal Text-Molecule Retrieval with Better Modality Alignment	Oct 31, 2024	Contrastive Learningcross-modal alignment	CodeCode Available
Multi-path Exploration and Feedback Adjustment for Text-to-Image Person Retrieval	Oct 26, 2024	cross-modal alignmentPerson Retrieval	—Unverified
Let Me Finish My Sentence: Video Temporal Grounding with Holistic Text Understanding	Oct 17, 2024	cross-modal alignmentSentence	—Unverified
Modeling the Human Visual System: Comparative Insights from Response-Optimized and Task-Optimized Vision Models, Language Models, and different Readout Mechanisms	Oct 17, 2024	cross-modal alignmentLarge Language Model	—Unverified
OMCAT: Omni Context Aware Transformer	Oct 15, 2024	Audio-visual Question AnsweringAudio-Visual Question Answering (AVQA)	—Unverified
Evaluating Semantic Variation in Text-to-Image Synthesis: A Causal Perspective	Oct 14, 2024	cross-modal alignmentImage Generation	CodeCode Available
EMMA: Empowering Multi-modal Mamba with Structural and Hierarchical Alignment	Oct 8, 2024	cross-modal alignmentHallucination	—Unverified
Intriguing Properties of Large Language and Vision Models	Oct 7, 2024	cross-modal alignmentLarge Language Model	—Unverified
TANGO: Co-Speech Gesture Video Reenactment with Hierarchical Audio Motion Embedding and Diffusion Interpolation	Oct 5, 2024	cross-modal alignmentRetrieval	—Unverified
Fully Aligned Network for Referring Image Segmentation	Sep 29, 2024	cross-modal alignmentDecoder	—Unverified
Exploring Information-Theoretic Metrics Associated with Neural Collapse in Supervised Training	Sep 25, 2024	Classificationcross-modal alignment	—Unverified
TS-HTFA: Advancing Time Series Forecasting via Hierarchical Text-Free Alignment with Large Language Models	Sep 23, 2024	Contrastive Learningcross-modal alignment	—Unverified
Learning to Localize Actions in Instructional Videos with LLM-Based Multi-Pathway Text-Video Alignment	Sep 22, 2024	Contrastive Learningcross-modal alignment	—Unverified
OneEncoder: A Lightweight Framework for Progressive Alignment of Modalities	Sep 17, 2024	cross-modal alignmentQuestion Answering	—Unverified
CAST: Cross-modal Alignment Similarity Test for Vision Language Models	Sep 17, 2024	cross-modal alignmentQuestion Answering	CodeCode Available
KALE: An Artwork Image Captioning System Augmented with Heterogeneous Graph	Sep 17, 2024	cross-modal alignmentImage Captioning	CodeCode Available
NEVLP: Noise-Robust Framework for Efficient Vision-Language Pre-training	Sep 15, 2024	Contrastive Learningcross-modal alignment	—Unverified
Locality-aware Cross-modal Correspondence Learning for Dense Audio-Visual Events Localization	Sep 12, 2024	cross-modal alignment	—Unverified
GALLa: Graph Aligned Large Language Models for Improved Source Code Understanding	Sep 6, 2024	cross-modal alignmentLanguage Modelling	—Unverified
Temporal Order Preserved Optimal Transport-based Cross-modal Knowledge Transfer Learning for ASR	Sep 3, 2024	Automatic Speech RecognitionAutomatic Speech Recognition (ASR)	—Unverified
Focus on Focus: Focus-oriented Representation Learning and Multi-view Cross-modal Alignment for Glioma Grading	Aug 16, 2024	Contrastive Learningcross-modal alignment	CodeCode Available
Cross-Modal Denoising: A Novel Training Paradigm for Enhancing Speech-Image Retrieval	Aug 15, 2024	cross-modal alignmentDenoising	—Unverified
Coarse-to-fine Alignment Makes Better Speech-image Retrieval	Aug 15, 2024	cross-modal alignmentImage Retrieval	—Unverified
Cross-aware Early Fusion with Stage-divided Vision and Language Transformer Encoders for Referring Image Segmentation	Aug 14, 2024	cross-modal alignmentImage Segmentation	—Unverified
Disentangled Noisy Correspondence Learning	Aug 10, 2024	cross-modal alignmentCross-Modal Retrieval	—Unverified
Unifying Visual and Semantic Feature Spaces with Diffusion Models for Enhanced Cross-Modal Alignment	Jul 26, 2024	cross-modal alignmentimage-classification	—Unverified
DAC: 2D-3D Retrieval with Noisy Labels via Divide-and-Conquer Alignment and Correction	Jul 25, 2024	cross-modal alignmentCross-Modal Retrieval	CodeCode Available
Multimodal Machine Learning in Mental Health: A Survey of Data, Algorithms, and Challenges	Jul 23, 2024	cross-modal alignmentFairness	—Unverified
Craft: Cross-modal Aligned Features Improve Robustness of Prompt Tuning	Jul 22, 2024	cross-modal alignment	CodeCode Available
Enhancing Emotion Recognition in Incomplete Data: A Novel Cross-Modal Alignment, Reconstruction, and Refinement Framework	Jul 12, 2024	Contrastive Learningcross-modal alignment	—Unverified
EA-VTR: Event-Aware Video-Text Retrieval	Jul 10, 2024	Action RecognitionContrastive Learning	—Unverified
Cross-Modal Attention Alignment Network with Auxiliary Text Description for zero-shot sketch-based image retrieval	Jul 1, 2024	cross-modal alignmentImage Retrieval	—Unverified
MLLM as Video Narrator: Mitigating Modality Imbalance in Video Moment Retrieval	Jun 25, 2024	cross-modal alignmentMoment Retrieval	—Unverified
It is Never Too Late to Mend: Separate Learning for Multimedia Recommendation	Jun 12, 2024	cross-modal alignmentMultimedia recommendation	CodeCode Available
Hire: Hybrid-modal Interaction with Multiple Relational Enhancements for Image-Text Matching	Jun 5, 2024	cross-modal alignmentImage-text matching	—Unverified
Multimodal Reasoning with Multimodal Knowledge Graph	Jun 4, 2024	cross-modal alignmentGraph Attention	—Unverified
OmniBind: Teach to Build Unequal-Scale Modality Interaction for Omni-Bind of All	May 25, 2024	Allcross-modal alignment	—Unverified
AlignGPT: Multi-modal Large Language Models with Adaptive Alignment Capability	May 23, 2024	cross-modal alignmentLanguage Modelling	—Unverified
Context-Enhanced Video Moment Retrieval with Large Language Models	May 21, 2024	cross-modal alignmentLanguage Modeling	—Unverified
Listen Then See: Video Alignment with Speaker Attention	Apr 21, 2024	cross-modal alignmentQuestion Answering	CodeCode Available
Distributionally Robust Alignment for Medical Federated Vision-Language Pre-training Under Data Heterogeneity	Apr 5, 2024	cross-modal alignmentFederated Learning	—Unverified
CIRP: Cross-Item Relational Pre-training for Multimodal Product Bundling	Apr 2, 2024	cross-modal alignmentGraph Learning	—Unverified

Show:10 25 50

← PrevPage 5 of 7Next →

No leaderboard results yet.