Multimodal Large Language Model

Papers

Recently Added Most Hyped Most Active Needs Verification Most Verified

Showing 276–300 of 347 papers

Title	Date	Tasks	Status
MinMo: A Multimodal Large Language Model for Seamless Voice Interaction	Jan 10, 2025	Instruction FollowingLanguage Modeling	—Unverified
Mitigating Hallucination in Multimodal Large Language Model via Hallucination-targeted Direct Preference Optimization	Nov 15, 2024	HallucinationHallucination Evaluation	—Unverified
MLLM-LLaVA-FL: Multimodal Large Language Model Assisted Federated Learning	Sep 9, 2024	Federated LearningImage Captioning	—Unverified
MLLM-For3D: Adapting Multimodal Large Language Model for 3D Reasoning Segmentation	Mar 23, 2025	Language ModelingLanguage Modelling	—Unverified
MLLM-Guided VLM Fine-Tuning with Joint Inference for Zero-Shot Composed Image Retrieval	May 26, 2025	Image RetrievalLarge Language Model	—Unverified
MLLMReID: Multimodal Large Language Model-based Person Re-identification	Jan 24, 2024	Language ModelingLanguage Modelling	—Unverified
MMMModal -- Multi-Images Multi-Audio Multi-turn Multi-Modal	Feb 17, 2024	Language ModelingLanguage Modelling	—Unverified
MMRC: A Large-Scale Benchmark for Understanding Multimodal Large Language Model in Real-World Conversation	Feb 17, 2025	Language ModelingLanguage Modelling	—Unverified
MobileFlow: A Multimodal LLM For Mobile GUI Agent	Jul 5, 2024	Action AnalysisLanguage Modelling	—Unverified
MoChat: Joints-Grouped Spatio-Temporal Grounding LLM for Multi-Turn Motion Comprehension and Description	Oct 15, 2024	Language ModelingLanguage Modelling	—Unverified
MonetGPT: Solving Puzzles Enhances MLLMs' Image Retouching Skills	May 9, 2025	Image RetouchingLarge Language Model	—Unverified
MoTrans: Customized Motion Transfer with Text-driven Video Diffusion Models	Dec 2, 2024	Language ModelingLanguage Modelling	—Unverified
MPIC: Position-Independent Multimodal Context Caching System for Efficient MLLM Serving	Feb 4, 2025	Language ModelingLanguage Modelling	—Unverified
mPLUG-DocOwl: Modularized Multimodal Large Language Model for Document Understanding	Jul 4, 2023	document understandingLanguage Modeling	—Unverified
mPLUG-PaperOwl: Scientific Diagram Analysis with the Multimodal Large Language Model	Nov 30, 2023	Language ModelingLanguage Modelling	—Unverified
MRIR: Integrating Multimodal Insights for Diffusion-based Realistic Image Restoration	Jul 4, 2024	DenoisingImage Restoration	—Unverified
MR-MLLM: Mutual Reinforcement of Multimodal Comprehension and Vision Perception	Jun 22, 2024	Common Sense ReasoningLanguage Modelling	—Unverified
Multimodal Large Language Model Driven Scenario Testing for Autonomous Vehicles	Sep 10, 2024	Autonomous VehiclesLanguage Modeling	—Unverified
Multimodal Large Language Model for Visual Navigation	Oct 12, 2023	Language ModelingLanguage Modelling	—Unverified
TimeSoccer: An End-to-End Multimodal Large Language Model for Soccer Commentary Generation	Apr 24, 2025	Caption GenerationDense Video Captioning	—Unverified
MERaLiON-SpeechEncoder: Towards a Speech Foundation Model for Singapore and Beyond	Dec 16, 2024	Language ModelingLanguage Modelling	—Unverified
Towards LLM-Centric Multimodal Fusion: A Survey on Integration Strategies and Techniques	Jun 5, 2025	cross-modal alignmentLarge Language Model	—Unverified
Towards Visual Text Grounding of Multimodal Large Language Model	Apr 7, 2025	BenchmarkingLanguage Modeling	—Unverified
Unbridled Icarus: A Survey of the Potential Perils of Image Inputs in Multimodal Large Language Model Security	Apr 8, 2024	Language ModelingLanguage Modelling	—Unverified
UniGen: Enhanced Training & Test-Time Strategies for Unified Multimodal Understanding and Generation	May 20, 2025	Image GenerationLanguage Modeling	—Unverified

Show:10 25 50

← PrevPage 12 of 14Next →

No leaderboard results yet.