Home/Multimodal & Vision-Language

Multimodal & Vision-Language

Papers in this area

Showing 1–10 of 10 papers

Title	Date	Tasks	Status
EgoPrune: Efficient Token Pruning for Egomotion Video Reasoning in Embodied Agent	Jul 21, 2025	Multimodal Reasoning	—Unverified
Visual Place Recognition for Large-Scale UAV Applications	Jul 20, 2025	BenchmarkingDiversity	—Unverified
Transformer-based Spatial Grounding: A Comprehensive Survey	Jul 17, 2025	cross-modal alignmentSurvey	—Unverified
VideoITG: Multimodal Video Understanding with Instructed Temporal Grounding	Jul 17, 2025	Video GroundingVideo Understanding	—Unverified
Revisiting Reliability in the Reasoning-based Pose Estimation Benchmark	Jul 17, 2025	Multimodal ReasoningPose Estimation	—Unverified
LaViPlan : Language-Guided Visual Path Planning with RLVR	Jul 17, 2025	Autonomous DrivingVision-Language-Action	—Unverified
Rethinking the Embodied Gap in Vision-and-Language Navigation: A Holistic Study of Physical and Visual Disparities	Jul 17, 2025	Large Language ModelVision and Language Navigation	—Unverified
AnyPos: Automated Task-Agnostic Actions for Bimanual Manipulation	Jul 17, 2025	Vision-Language-Action	—Unverified
LoViC: Efficient Long Video Generation with Context Compression	Jul 17, 2025	Text-to-Video GenerationVideo Generation	—Unverified
MCoT-RE: Multi-Faceted Chain-of-Thought and Re-Ranking for Training-Free Zero-Shot Composed Image Retrieval	Jul 17, 2025	Image RetrievalRe-Ranking	—Unverified

Show:10 25 50

Task	Papers	Results
Document To Image Conversion	1	0
Few-shot Video Question Answering	1	0
Go to AnyThing	1	0
Image Text Removal	1	0
Image-to-Image Translation on Cityscapes-to-Foggy Cityscapes	1	0
MLLM Aesthetic Evaluation	1	0
MLLM Evaluation: Aesthetics	1	0
MM-Vet v2	1	0
Multilingual Image-Text Classification	1	0
Open Set Video Captioning	1	0
Pedestrian Image Caption	1	0
Video Captioning on MSR-VTT	1	0
Video Question Answering (Level 3)	1	0
Video Question Answering (Level 4)	1	0
Visual Text Correction	1	0
VNLA Find objects in photorealistic environments by requesting an…	1	0
Zero-Shot Cross-Lingual Image-to-Text Retrieval on xFlickr&CO	1	0
Zero-Shot Cross-Lingual Text-to-Image Retrieval on xFlickr&CO	1	0
Zero-shot dense video captioning	1	0
zero-shot long video breakpoint-model question answering	1	0
Text-To-Image	0	0