cross-modal alignment

Papers

Recently Added Most Hyped Most Active Needs Verification Most Verified

Showing 251–300 of 342 papers

Title	Date	Tasks	Status
SeCG: Semantic-Enhanced 3D Visual Grounding via Cross-modal Graph Attention	Mar 13, 2024	3D visual groundingcross-modal alignment	CodeCode Available
Multi-Grained Cross-modal Alignment for Learning Open-vocabulary Semantic Segmentation from Text Supervision	Mar 6, 2024	Contrastive Learningcross-modal alignment	—Unverified
Multi-modal Attribute Prompting for Vision-Language Models	Mar 1, 2024	Attributecross-modal alignment	—Unverified
Semantics-enhanced Cross-modal Masked Image Modeling for Vision-Language Pre-training	Mar 1, 2024	cross-modal alignmentRepresentation Learning	—Unverified
Mind the Modality Gap: Towards a Remote Sensing Vision-Language Model via Cross-modal Alignment	Feb 15, 2024	cross-modal alignmentCross-Modal Retrieval	—Unverified
Cross-Modal Prototype based Multimodal Federated Learning under Severely Missing Modality	Jan 25, 2024	cross-modal alignmentFederated Learning	—Unverified
Multi-level Cross-modal Alignment for Image Clustering	Jan 22, 2024	Clusteringcross-modal alignment	—Unverified
Self-supervised Feature Adaptation for 3D Industrial Anomaly Detection	Jan 6, 2024	Anomaly Detectioncross-modal alignment	—Unverified
Multi-Prompts Learning with Cross-Modal Alignment for Attribute-based Person Re-Identification	Dec 28, 2023	Attributecross-modal alignment	—Unverified
Detection-based Intermediate Supervision for Visual Question Answering	Dec 26, 2023	cross-modal alignmentLogical Reasoning	—Unverified
M^2ConceptBase: A Fine-Grained Aligned Concept-Centric Multimodal Knowledge Base	Dec 16, 2023	cross-modal alignmentKnowledge Graphs	CodeCode Available
Improving Cross-modal Alignment with Synthetic Pairs for Text-only Image Captioning	Dec 14, 2023	cross-modal alignmentDecoder	—Unverified
OpenSight: A Simple Open-Vocabulary Framework for LiDAR-Based Object Detection	Dec 12, 2023	cross-modal alignmentobject-detection	—Unverified
PMMTalk: Speech-Driven 3D Facial Animation from Complementary Pseudo Multi-modal Features	Dec 5, 2023	cross-modal alignmentDecoder	—Unverified
DAP: Domain-aware Prompt Learning for Vision-and-Language Navigation	Nov 29, 2023	cross-modal alignmentNavigate	—Unverified
MCAD: Multi-teacher Cross-modal Alignment Distillation for efficient image-text retrieval	Oct 30, 2023	cross-modal alignmentImage-text Retrieval	—Unverified
Video Referring Expression Comprehension via Transformer with Content-conditioned Query	Oct 25, 2023	cross-modal alignmentReferring Expression	—Unverified
On the Language Encoder of Contrastive Cross-modal Models	Oct 20, 2023	cross-modal alignmentSentence	—Unverified
Robust Graph Matching Using An Unbalanced Hierarchical Optimal Transport Framework	Oct 18, 2023	cross-modal alignmentGraph Matching	CodeCode Available
Separating Invisible Sounds Toward Universal Audiovisual Scene-Aware Sound Separation	Oct 18, 2023	cross-modal alignment	—Unverified
Prototype-guided Cross-modal Completion and Alignment for Incomplete Text-based Person Re-identification	Sep 29, 2023	cross-modal alignmentPerson Re-Identification	—Unverified
Align before Search: Aligning Ads Image to Text for Accurate Cross-Modal Sponsored Search	Sep 28, 2023	cross-modal alignmentCross-Modal Retrieval	CodeCode Available
Cross-modal Alignment with Optimal Transport for CTC-based ASR	Sep 24, 2023	Automatic Speech RecognitionAutomatic Speech Recognition (ASR)	—Unverified
Sound Source Localization is All about Cross-Modal Alignment	Sep 19, 2023	Allcross-modal alignment	—Unverified
Prompt-based Context- and Domain-aware Pretraining for Vision and Language Navigation	Sep 7, 2023	Contrastive Learningcross-modal alignment	—Unverified
Towards High-Fidelity Text-Guided 3D Face Generation and Manipulation Using only Images	Aug 31, 2023	3D Shape GenerationContrastive Learning	—Unverified
DiffCloth: Diffusion Based Garment Synthesis and Manipulation via Structural Cross-modal Semantic Alignment	Aug 22, 2023	AttributeConstituency Parsing	—Unverified
Language-Guided Diffusion Model for Visual Grounding	Aug 18, 2023	cross-modal alignmentDenoising	CodeCode Available
Contrast-augmented Diffusion Model with Fine-grained Sequence Alignment for Markup-to-Image Generation	Aug 2, 2023	cross-modal alignmentDenoising	CodeCode Available
WiCo: Win-win Cooperation of Bottom-up and Top-down Referring Image Segmentation	Jun 19, 2023	cross-modal alignmentImage Segmentation	—Unverified
Retrieving-to-Answer: Zero-Shot Video Question Answering with Frozen Large Language Models	Jun 15, 2023	cross-modal alignmentDomain Generalization	—Unverified
Improving speech translation by fusing speech and text	May 23, 2023	cross-modal alignmentMachine Translation	—Unverified
Speech-Text Dialog Pre-training for Spoken Dialog Understanding with Explicit Cross-Modal Alignment	May 19, 2023	cross-modal alignmentEmotion Recognition in Conversation	—Unverified
Multi-task Paired Masking with Alignment Modeling for Medical Vision-Language Pre-training	May 13, 2023	cross-modal alignment	—Unverified
AlignSTS: Speech-to-Singing Conversion via Cross-Modal Alignment	May 8, 2023	cross-modal alignmentRhythm	—Unverified
CoVLR: Coordinating Cross-Modal Consistency and Intra-Modal Structure for Vision-Language Retrieval	Apr 15, 2023	cross-modal alignmentCross-Modal Retrieval	—Unverified
SoftCLIP: Softer Cross-modal Alignment Makes CLIP Stronger	Mar 30, 2023	cross-modal alignmentzero-shot-classification	—Unverified
Unmasked Teacher: Towards Training-Efficient Video Foundation Models	Mar 28, 2023	Action ClassificationAction Recognition	CodeCode Available
LoGoNet: Towards Accurate 3D Object Detection with Local-to-Global Cross-Modal Fusion	Mar 7, 2023	3D Object Detectioncross-modal alignment	CodeCode Available
TOT: Topology-Aware Optimal Transport For Multimodal Hate Detection	Feb 27, 2023	cross-modal alignment	—Unverified
End-to-end Semantic Object Detection with Cross-Modal Alignment	Feb 10, 2023	Contrastive Learningcross-modal alignment	—Unverified
Does Vision Accelerate Hierarchical Generalization in Neural Language Learners?	Feb 1, 2023	cross-modal alignmentLanguage Acquisition	—Unverified
Improving Cross-modal Alignment for Text-Guided Image Inpainting	Jan 26, 2023	cross-modal alignmentImage Inpainting	—Unverified
Linguistic Query-Guided Mask Generation for Referring Image Segmentation	Jan 16, 2023	Contrastive Learningcross-modal alignment	—Unverified
HiTeA: Hierarchical Temporal-Aware Video-Language Pre-training	Dec 30, 2022	cross-modal alignmentTGIF-Action	—Unverified
SimVTP: Simple Video Text Pre-training with Masked Autoencoders	Dec 7, 2022	Contrastive Learningcross-modal alignment	CodeCode Available
Asymmetric Cross-Scale Alignment for Text-Based Person Search	Nov 26, 2022	cross-modal alignmentPerson Search	CodeCode Available
How do Cross-View and Cross-Modal Alignment Affect Representations in Contrastive Learning?	Nov 23, 2022	Contrastive Learningcross-modal alignment	—Unverified
SMAUG: Sparse Masked Autoencoder for Efficient Video-Language Pre-training	Nov 21, 2022	cross-modal alignmentGPU	—Unverified
Learning by Hallucinating: Vision-Language Pre-training with Weak Supervision	Oct 24, 2022	cross-modal alignmentCross-Modal Retrieval	—Unverified

Show:10 25 50

← PrevPage 6 of 7Next →

No leaderboard results yet.