Multimodal Large Language Model

Papers

Recently Added Most Hyped Most Active Needs Verification Most Verified

Showing 251–300 of 347 papers

Title	Date	Tasks	Status
J-EDI QA: Benchmark for deep-sea organism-specific multimodal LLM	Dec 20, 2024	Language ModelingLanguage Modelling	—Unverified
KptLLM++: Towards Generic Keypoint Comprehension with Large Language Model	Jul 15, 2025	Keypoint DetectionLanguage Modeling	—Unverified
Language Is Not All You Need: Aligning Perception with Language Models	Feb 27, 2023	AllImage Captioning	—Unverified
Learning Free Token Reduction for Multi-Modal Large Language Models	Jan 29, 2025	Language ModelingLanguage Modelling	—Unverified
LEGION: Learning to Ground and Explain for Synthetic Image Detection	Mar 19, 2025	Artifact DetectionImage Manipulation	—Unverified
Leveraging Multimodal-LLMs Assisted by Instance Segmentation for Intelligent Traffic Monitoring	Feb 16, 2025	Instance SegmentationLanguage Modeling	—Unverified
Lightweight Multimodal Artificial Intelligence Framework for Maritime Multi-Scene Recognition	Mar 10, 2025	Disaster ResponseLarge Language Model	—Unverified
LLaDA-V: Large Language Diffusion Models with Visual Instruction Tuning	May 22, 2025	Language ModelingLanguage Modelling	—Unverified
LLaVA-Docent: Instruction Tuning with Multimodal Large Language Model to Support Art Appreciation Education	Feb 9, 2024	BenchmarkingChatbot	—Unverified
LLaVA-MoLE: Sparse Mixture of LoRA Experts for Mitigating Data Conflicts in Instruction Finetuning MLLMs	Jan 29, 2024	Language ModellingLarge Language Model	—Unverified
LLaVA-Octopus: Unlocking Instruction-Driven Adaptive Projector Fusion for Video Understanding	Jan 9, 2025	Language ModelingLanguage Modelling	—Unverified
LLaVA-Read: Enhancing Reading Ability of Multimodal Language Models	Jul 27, 2024	Language ModelingLanguage Modelling	—Unverified
LLaVA-Ultra: Large Chinese Language and Vision Assistant for Ultrasound	Oct 19, 2024	Instruction FollowingKnowledge Distillation	—Unverified
LRMR: LLM-Driven Relational Multi-node Ranking for Lymph Node Metastasis Assessment in Rectal Cancer	Jul 15, 2025	DiagnosticLarge Language Model	—Unverified
Lumos : Empowering Multimodal LLMs with Scene Text Recognition	Feb 12, 2024	Language ModelingLanguage Modelling	—Unverified
Make Imagination Clearer! Stable Diffusion-based Visual Imagination for Multimodal Machine Translation	Dec 17, 2024	Language ModelingLanguage Modelling	—Unverified
ManipLLM: Embodied Multimodal Large Language Model for Object-Centric Robotic Manipulation	Dec 24, 2023	Common Sense ReasoningLanguage Modeling	—Unverified
Marmot: Multi-Agent Reasoning for Multi-Object Self-Correcting in Improving Image-Text Alignment	Apr 10, 2025	AI AgentAttribute	—Unverified
Mask-aware Text-to-Image Retrieval: Referring Expression Segmentation Meets Cross-modal Retrieval	Jun 28, 2025	Cross-Modal RetrievalImage Captioning	—Unverified
MaVEn: An Effective Multi-granularity Hybrid Visual Encoding Framework for Multimodal Large Language Model	Aug 22, 2024	Language ModelingLanguage Modelling	—Unverified
Mavors: Multi-granularity Video Representation for Multimodal Large Language Model	Apr 14, 2025	Computational EfficiencyLanguage Modeling	—Unverified
Med-2E3: A 2D-Enhanced 3D Medical Multimodal Large Language Model	Nov 19, 2024	Language ModelingLanguage Modelling	—Unverified
MedXChat: A Unified Multimodal Large Language Model Framework towards CXRs Understanding and Generation	Dec 4, 2023	Instruction FollowingLanguage Modeling	—Unverified
MIKO: Multimodal Intention Knowledge Distillation from Large Language Models for Social-Media Commonsense Discovery	Feb 28, 2024	Knowledge DistillationLanguage Modeling	—Unverified
MIKU-PAL: An Automated and Standardized Multi-Modal Method for Speech Paralinguistic and Affect Labeling	May 21, 2025	Emotion RecognitionFace Detection	—Unverified
MinMo: A Multimodal Large Language Model for Seamless Voice Interaction	Jan 10, 2025	Instruction FollowingLanguage Modeling	—Unverified
Mitigating Hallucination in Multimodal Large Language Model via Hallucination-targeted Direct Preference Optimization	Nov 15, 2024	HallucinationHallucination Evaluation	—Unverified
MLLM-LLaVA-FL: Multimodal Large Language Model Assisted Federated Learning	Sep 9, 2024	Federated LearningImage Captioning	—Unverified
MLLM-For3D: Adapting Multimodal Large Language Model for 3D Reasoning Segmentation	Mar 23, 2025	Language ModelingLanguage Modelling	—Unverified
MLLM-Guided VLM Fine-Tuning with Joint Inference for Zero-Shot Composed Image Retrieval	May 26, 2025	Image RetrievalLarge Language Model	—Unverified
MLLMReID: Multimodal Large Language Model-based Person Re-identification	Jan 24, 2024	Language ModelingLanguage Modelling	—Unverified
MMMModal -- Multi-Images Multi-Audio Multi-turn Multi-Modal	Feb 17, 2024	Language ModelingLanguage Modelling	—Unverified
MMRC: A Large-Scale Benchmark for Understanding Multimodal Large Language Model in Real-World Conversation	Feb 17, 2025	Language ModelingLanguage Modelling	—Unverified
MobileFlow: A Multimodal LLM For Mobile GUI Agent	Jul 5, 2024	Action AnalysisLanguage Modelling	—Unverified
MoChat: Joints-Grouped Spatio-Temporal Grounding LLM for Multi-Turn Motion Comprehension and Description	Oct 15, 2024	Language ModelingLanguage Modelling	—Unverified
MonetGPT: Solving Puzzles Enhances MLLMs' Image Retouching Skills	May 9, 2025	Image RetouchingLarge Language Model	—Unverified
MoTrans: Customized Motion Transfer with Text-driven Video Diffusion Models	Dec 2, 2024	Language ModelingLanguage Modelling	—Unverified
MPIC: Position-Independent Multimodal Context Caching System for Efficient MLLM Serving	Feb 4, 2025	Language ModelingLanguage Modelling	—Unverified
mPLUG-DocOwl: Modularized Multimodal Large Language Model for Document Understanding	Jul 4, 2023	document understandingLanguage Modeling	—Unverified
mPLUG-PaperOwl: Scientific Diagram Analysis with the Multimodal Large Language Model	Nov 30, 2023	Language ModelingLanguage Modelling	—Unverified
MRIR: Integrating Multimodal Insights for Diffusion-based Realistic Image Restoration	Jul 4, 2024	DenoisingImage Restoration	—Unverified
MR-MLLM: Mutual Reinforcement of Multimodal Comprehension and Vision Perception	Jun 22, 2024	Common Sense ReasoningLanguage Modelling	—Unverified
Multimodal Large Language Model Driven Scenario Testing for Autonomous Vehicles	Sep 10, 2024	Autonomous VehiclesLanguage Modeling	—Unverified
Multimodal Large Language Model for Visual Navigation	Oct 12, 2023	Language ModelingLanguage Modelling	—Unverified
TimeSoccer: An End-to-End Multimodal Large Language Model for Soccer Commentary Generation	Apr 24, 2025	Caption GenerationDense Video Captioning	—Unverified
MERaLiON-SpeechEncoder: Towards a Speech Foundation Model for Singapore and Beyond	Dec 16, 2024	Language ModelingLanguage Modelling	—Unverified
Towards LLM-Centric Multimodal Fusion: A Survey on Integration Strategies and Techniques	Jun 5, 2025	cross-modal alignmentLarge Language Model	—Unverified
Towards Visual Text Grounding of Multimodal Large Language Model	Apr 7, 2025	BenchmarkingLanguage Modeling	—Unverified
Unbridled Icarus: A Survey of the Potential Perils of Image Inputs in Multimodal Large Language Model Security	Apr 8, 2024	Language ModelingLanguage Modelling	—Unverified
UniGen: Enhanced Training & Test-Time Strategies for Unified Multimodal Understanding and Generation	May 20, 2025	Image GenerationLanguage Modeling	—Unverified

Show:10 25 50

← PrevPage 6 of 7Next →

No leaderboard results yet.