Multimodal Large Language Model

Papers

Recently Added Most Hyped Most Active Needs Verification Most Verified

Showing 301–325 of 347 papers

Title	Date	Tasks	Status
Mitigating Hallucination in Multimodal Large Language Model via Hallucination-targeted Direct Preference Optimization	Nov 15, 2024	HallucinationHallucination Evaluation	—Unverified
MLLM-LLaVA-FL: Multimodal Large Language Model Assisted Federated Learning	Sep 9, 2024	Federated LearningImage Captioning	—Unverified
MLLM-For3D: Adapting Multimodal Large Language Model for 3D Reasoning Segmentation	Mar 23, 2025	Language ModelingLanguage Modelling	—Unverified
MLLM-Guided VLM Fine-Tuning with Joint Inference for Zero-Shot Composed Image Retrieval	May 26, 2025	Image RetrievalLarge Language Model	—Unverified
MLLMReID: Multimodal Large Language Model-based Person Re-identification	Jan 24, 2024	Language ModelingLanguage Modelling	—Unverified
MMMModal -- Multi-Images Multi-Audio Multi-turn Multi-Modal	Feb 17, 2024	Language ModelingLanguage Modelling	—Unverified
MMRC: A Large-Scale Benchmark for Understanding Multimodal Large Language Model in Real-World Conversation	Feb 17, 2025	Language ModelingLanguage Modelling	—Unverified
MobileFlow: A Multimodal LLM For Mobile GUI Agent	Jul 5, 2024	Action AnalysisLanguage Modelling	—Unverified
MoChat: Joints-Grouped Spatio-Temporal Grounding LLM for Multi-Turn Motion Comprehension and Description	Oct 15, 2024	Language ModelingLanguage Modelling	—Unverified
MonetGPT: Solving Puzzles Enhances MLLMs' Image Retouching Skills	May 9, 2025	Image RetouchingLarge Language Model	—Unverified
MoTrans: Customized Motion Transfer with Text-driven Video Diffusion Models	Dec 2, 2024	Language ModelingLanguage Modelling	—Unverified
MPIC: Position-Independent Multimodal Context Caching System for Efficient MLLM Serving	Feb 4, 2025	Language ModelingLanguage Modelling	—Unverified
mPLUG-DocOwl: Modularized Multimodal Large Language Model for Document Understanding	Jul 4, 2023	document understandingLanguage Modeling	—Unverified
mPLUG-PaperOwl: Scientific Diagram Analysis with the Multimodal Large Language Model	Nov 30, 2023	Language ModelingLanguage Modelling	—Unverified
MRIR: Integrating Multimodal Insights for Diffusion-based Realistic Image Restoration	Jul 4, 2024	DenoisingImage Restoration	—Unverified
MR-MLLM: Mutual Reinforcement of Multimodal Comprehension and Vision Perception	Jun 22, 2024	Common Sense ReasoningLanguage Modelling	—Unverified
Multimodal Large Language Model Driven Scenario Testing for Autonomous Vehicles	Sep 10, 2024	Autonomous VehiclesLanguage Modeling	—Unverified
Multimodal Large Language Model for Visual Navigation	Oct 12, 2023	Language ModelingLanguage Modelling	—Unverified
Multimodal Large Language Model is a Human-Aligned Annotator for Text-to-Image Generation	Apr 23, 2024	Image GenerationLanguage Modeling	—Unverified
Multimodal Multi-turn Conversation Stance Detection: A Challenge Dataset and Effective Model	Sep 1, 2024	Language ModelingLanguage Modelling	—Unverified
Multimodal Transformer for Comics Text-Cloze	Mar 6, 2024	Language ModelingLanguage Modelling	—Unverified
ObjectFinder: An Open-Vocabulary Assistive System for Interactive Object Search by Blind People	Dec 4, 2024	Large Language ModelMultimodal Large Language Model	—Unverified
OCC-MLLM:Empowering Multimodal Large Language Model For the Understanding of Occluded Objects	Oct 2, 2024	Language ModelingLanguage Modelling	—Unverified
OmniDiff: A Comprehensive Benchmark for Fine-grained Image Difference Captioning	Mar 14, 2025	Large Language ModelMultimodal Large Language Model	—Unverified
OmniParser V2: Structured-Points-of-Thought for Unified Visual Text Parsing and Its Generality to Multimodal Large Language Models	Feb 22, 2025	document understandingKey Information Extraction	—Unverified

Show:10 25 50

← PrevPage 13 of 14Next →

No leaderboard results yet.