cross-modal alignment

Papers

Recently Added Most Hyped Most Active Needs Verification Most Verified

Showing 26–50 of 342 papers

Title	Date	Tasks	Status	Hype	Score
Law of Vision Representation in MLLMs	Aug 29, 2024	cross-modal alignmentLanguage Modeling	CodeCode Available	2	5
Melody-Guided Music Generation	Sep 30, 2024	cross-modal alignmentMusic Generation	CodeCode Available	2	5
MM-Diffusion: Learning Multi-Modal Diffusion Models for Joint Audio and Video Generation	Dec 19, 2022	cross-modal alignmentDenoising	CodeCode Available	2	5
A Survey on Facial Expression Recognition of Static and Dynamic Emotions	Aug 28, 2024	cross-modal alignmentFacial Expression Recognition	CodeCode Available	1	5
Align and Prompt: Video-and-Language Pre-training with Entity Prompts	Dec 17, 2021	cross-modal alignmentEntity Alignment	CodeCode Available	1	5
ASAP: Advancing Semantic Alignment Promotes Multi-Modal Manipulation Detecting and Grounding	Dec 17, 2024	cross-modal alignment	CodeCode Available	1	5
Global and Local Semantic Completion Learning for Vision-Language Pre-training	Jun 12, 2023	cross-modal alignmentImage-text Retrieval	CodeCode Available	1	5
Free Lunch Enhancements for Multi-modal Crowd Counting	Jan 1, 2025	cross-modal alignmentCrowd Counting	CodeCode Available	1	5
Diffusion Bridge: Leveraging Diffusion Model to Reduce the Modality Gap Between Text and Vision for Zero-Shot Image Captioning	Jan 1, 2025	cross-modal alignmentDenoising	CodeCode Available	1	5
Advancing Multi-grained Alignment for Contrastive Language-Audio Pre-training	Aug 15, 2024	cross-modal alignment	CodeCode Available	1	5
GEAL: Generalizable 3D Affordance Learning with Cross-Modal Consistency	Dec 12, 2024	cross-modal alignmentTransfer Learning	CodeCode Available	1	5
Grounded Entity-Landmark Adaptive Pre-training for Vision-and-Language Navigation	Aug 24, 2023	cross-modal alignmentDescriptive	CodeCode Available	1	5
Cross-modal Causal Relation Alignment for Video Question Grounding	Mar 5, 2025	Contrastive Learningcross-modal alignment	CodeCode Available	1	5
BridgeTower: Building Bridges Between Encoders in Vision-Language Representation Learning	Jun 17, 2022	cross-modal alignmentRepresentation Learning	CodeCode Available	1	5
Enhanced OoD Detection through Cross-Modal Alignment of Multi-Modal Representations	Mar 24, 2025	cross-modal alignmentImage Classification	CodeCode Available	1	5
Conditional Variational Autoencoder for Sign Language Translation with Cross-Modal Alignment	Dec 25, 2023	cross-modal alignmentDecoder	CodeCode Available	1	5
BrainVis: Exploring the Bridge between Brain and Visual Signals via Image Reconstruction	Dec 22, 2023	cross-modal alignmentEEG	CodeCode Available	1	5
Dynamic Modality Interaction Modeling for Image-Text Retrieval	Jul 11, 2021	cross-modal alignmentCross-Modal Retrieval	CodeCode Available	1	5
A Cross-Modal Approach to Silent Speech with LLM-Enhanced Recognition	Mar 2, 2024	Automatic Speech RecognitionAutomatic Speech Recognition (ASR)	CodeCode Available	1	5
AlignVSR: Audio-Visual Cross-Modal Alignment for Visual Speech Recognition	Oct 21, 2024	cross-modal alignmentspeech-recognition	CodeCode Available	1	5
CAMANet: Class Activation Map Guided Attention Network for Radiology Report Generation	Nov 2, 2022	cross-modal alignmentDecision Making	CodeCode Available	1	5
Align-KD: Distilling Cross-Modal Alignment Knowledge for Mobile Vision-Language Large Model Enhancement	Jan 1, 2025	cross-modal alignmentKnowledge Distillation	CodeCode Available	1	5
BiPVL-Seg: Bidirectional Progressive Vision-Language Fusion with Global-Local Alignment for Medical Image Segmentation	Mar 30, 2025	cross-modal alignmentImage Segmentation	CodeCode Available	1	5
DanceIt: Music-inspired Dancing Video Synthesis	Sep 17, 2020	cross-modal alignmentRhythm	CodeCode Available	1	5
CVT-SLR: Contrastive Visual-Textual Transformation for Sign Language Recognition with Variational Alignment	Mar 10, 2023	cross-modal alignmentSign Language Recognition	CodeCode Available	1	5

Show:10 25 50

← PrevPage 2 of 14Next →

No leaderboard results yet.