cross-modal alignment

Papers

Recently Added Most Hyped Most Active Needs Verification Most Verified

Showing 201–250 of 342 papers

Title	Date	Tasks	Status
ALN-P3: Unified Language Alignment for Perception, Prediction, and Planning in Autonomous Driving	May 21, 2025	Autonomous Drivingcross-modal alignment	—Unverified
A Multi-Agent Framework for Automated Qinqiang Opera Script Generation Using Large Language Models	Apr 22, 2025	cross-modal alignmentScript Generation	—Unverified
A Survey of Automatic Prompt Engineering: An Optimization Perspective	Feb 17, 2025	cross-modal alignmentPrompt Engineering	—Unverified
Audio-Visual Semantic Graph Network for Audio-Visual Event Localization	Jan 1, 2025	audio-visual event localizationcross-modal alignment	—Unverified
AutoRad-Lung: A Radiomic-Guided Prompting Autoregressive Vision-Language Model for Lung Nodule Malignancy Prediction	Mar 26, 2025	Computed Tomography (CT)cross-modal alignment	—Unverified
Bag of Tricks for Multimodal AutoML with Image, Text, and Tabular Data	Dec 19, 2024	AutoMLcross-modal alignment	—Unverified
Behind the Scene: Revealing the Secrets of Pre-trained Vision-and-Language Models	May 15, 2020	coreference-resolutionCoreference Resolution	—Unverified
Beyond Modality Collapse: Representations Blending for Multimodal Dataset Distillation	May 16, 2025	cross-modal alignmentDataset Distillation	—Unverified
Bridge Feature Matching and Cross-Modal Alignment with Mutual-filtering for Zero-shot Anomaly Detection	Jul 15, 2025	Anomaly ClassificationAnomaly Detection	—Unverified
CAD: A General Multimodal Framework for Video Deepfake Detection via Cross-Modal Alignment and Distillation	May 21, 2025	cross-modal alignmentDeepFake Detection	—Unverified
CADFormer: Fine-Grained Cross-modal Alignment and Decoding Transformer for Referring Remote Sensing Image Segmentation	Mar 30, 2025	cross-modal alignmentImage Segmentation	—Unverified
CATVis: Context-Aware Thought Visualization	Jul 15, 2025	cross-modal alignmentEEG	—Unverified
CGP-Tuning: Structure-Aware Soft Prompt Tuning for Code Vulnerability Detection	Jan 8, 2025	Computational Efficiencycross-modal alignment	—Unverified
ChartAdapter: Large Vision-Language Model for Chart Summarization	Dec 30, 2024	Chart Understandingcross-modal alignment	—Unverified
Chat-based Person Retrieval via Dialogue-Refined Cross-Modal Alignment	Jan 1, 2025	Attributecross-modal alignment	—Unverified
CIRP: Cross-Item Relational Pre-training for Multimodal Product Bundling	Apr 2, 2024	cross-modal alignmentGraph Learning	—Unverified
Clip4Retrofit: Enabling Real-Time Image Labeling on Edge Devices via Cross-Architecture CLIP Distillation	May 23, 2025	Autonomous Drivingcross-modal alignment	—Unverified
CLIP-PING: Boosting Lightweight Vision-Language Models with Proximus Intrinsic Neighbors Guidance	Dec 5, 2024	Contrastive Learningcross-modal alignment	—Unverified
Coarse-to-fine Alignment Makes Better Speech-image Retrieval	Aug 15, 2024	cross-modal alignmentImage Retrieval	—Unverified
Co-AttenDWG: Co-Attentive Dimension-Wise Gating and Expert Fusion for Multi-Modal Offensive Content Detection	May 25, 2025	cross-modal alignmentScene Understanding	—Unverified
Context-Enhanced Video Moment Retrieval with Large Language Models	May 21, 2024	cross-modal alignmentLanguage Modeling	—Unverified
Continual learning in cross-modal retrieval	Apr 14, 2021	Continual Learningcross-modal alignment	—Unverified
Continuous Sign Language Recognition Through Cross-Modal Alignment of Video and Text Embeddings in a Joint-Latent Space	May 11, 2020	cross-modal alignmentDecoder	—Unverified
COST: Contrastive One-Stage Transformer for Vision-Language Small Object Tracking	Apr 2, 2025	cross-modal alignmentObject	—Unverified
CoVLR: Coordinating Cross-Modal Consistency and Intra-Modal Structure for Vision-Language Retrieval	Apr 15, 2023	cross-modal alignmentCross-Modal Retrieval	—Unverified
Cross-attention for State-based model RWKV-7	Apr 19, 2025	cross-modal alignmentImage Generation	—Unverified
Cross-aware Early Fusion with Stage-divided Vision and Language Transformer Encoders for Referring Image Segmentation	Aug 14, 2024	cross-modal alignmentImage Segmentation	—Unverified
Cross-Modal Alignment Learning of Vision-Language Conceptual Systems	Jul 31, 2022	cross-modal alignmentRepresentation Learning	—Unverified
Cross-Modal Alignment with Mixture Experts Neural Network for Intral-City Retail Recommendation	Sep 17, 2020	cross-modal alignmentImage to text	—Unverified
Cross-modal Alignment with Optimal Transport for CTC-based ASR	Sep 24, 2023	Automatic Speech RecognitionAutomatic Speech Recognition (ASR)	—Unverified
Cross-Modal Attention Alignment Network with Auxiliary Text Description for zero-shot sketch-based image retrieval	Jul 1, 2024	cross-modal alignmentImage Retrieval	—Unverified
Cross-modal Context Fusion and Adaptive Graph Convolutional Network for Multimodal Conversational Emotion Recognition	Jan 25, 2025	cross-modal alignmentEmotion Classification	—Unverified
Cross-Modal Cross-Domain Moment Alignment Network for Person Search	Jun 1, 2020	cross-modal alignmentPerson Search	—Unverified
Cross-Modal Denoising: A Novel Training Paradigm for Enhancing Speech-Image Retrieval	Aug 15, 2024	cross-modal alignmentDenoising	—Unverified
Cross-Modal Prototype based Multimodal Federated Learning under Severely Missing Modality	Jan 25, 2024	cross-modal alignmentFederated Learning	—Unverified
Cross-modal Semantic Enhanced Interaction for Image-Sentence Retrieval	Oct 17, 2022	cross-modal alignmentObject	—Unverified
CTPD: Cross-Modal Temporal Pattern Discovery for Enhanced Multimodal Electronic Health Records Analysis	Nov 1, 2024	cross-modal alignmentPhenotype classification	—Unverified
Curriculum Audiovisual Learning	Jan 26, 2020	Clusteringcross-modal alignment	—Unverified
DALR: Dual-level Alignment Learning for Multimodal Sentence Representation Learning	Jun 26, 2025	cross-modal alignmentRepresentation Learning	—Unverified
DAP: Domain-aware Prompt Learning for Vision-and-Language Navigation	Nov 29, 2023	cross-modal alignmentNavigate	—Unverified
Towards Brain Passage Retrieval -- An Investigation of EEG Query Representations	Dec 9, 2024	cross-modal alignmentEEG	—Unverified
Deformable Attentive Visual Enhancement for Referring Segmentation Using Vision-Language Model	May 25, 2025	cross-modal alignmentImage Segmentation	—Unverified
Denoising and Alignment: Rethinking Domain Generalization for Multimodal Face Anti-Spoofing	May 14, 2025	cross-modal alignmentDenoising	—Unverified
DenseGrounding: Improving Dense Language-Vision Semantics for Ego-Centric 3D Visual Grounding	May 8, 2025	3D visual groundingcross-modal alignment	—Unverified
Detection-based Intermediate Supervision for Visual Question Answering	Dec 26, 2023	cross-modal alignmentLogical Reasoning	—Unverified
DF-Calib: Targetless LiDAR-Camera Calibration via Depth Flow	Apr 2, 2025	Autonomous DrivingCamera Calibration	—Unverified
DiffCloth: Diffusion Based Garment Synthesis and Manipulation via Structural Cross-modal Semantic Alignment	Aug 22, 2023	AttributeConstituency Parsing	—Unverified
DiSa: Directional Saliency-Aware Prompt Learning for Generalizable Vision-Language Models	May 26, 2025	cross-modal alignmentDomain Generalization	—Unverified
Disentangled Noisy Correspondence Learning	Aug 10, 2024	cross-modal alignmentCross-Modal Retrieval	—Unverified
Does Vision Accelerate Hierarchical Generalization in Neural Language Learners?	Feb 1, 2023	cross-modal alignmentLanguage Acquisition	—Unverified

Show:10 25 50

← PrevPage 5 of 7Next →

No leaderboard results yet.