Multimodal Large Language Model

Papers

Recently Added Most Hyped Most Active Needs Verification Most Verified

Showing 76–100 of 347 papers

Title	Date	Tasks	Status	Hype
Towards Unified Referring Expression Segmentation Across Omni-Level Visual Target Granularities	Apr 2, 2025	DescriptiveLarge Language Model	CodeCode Available	0
Open-Qwen2VL: Compute-Efficient Pre-Training of Fully-Open Multimodal LLMs on Academic Resources	Apr 1, 2025	GPULarge Language Model	—Unverified	0
Orchestrate Multimodal Data with Batch Post-Balancing to Accelerate Multimodal Large Language Model Training	Mar 31, 2025	GPULanguage Modeling	—Unverified	0
Dynamic Pyramid Network for Efficient Multimodal Large Language Model	Mar 26, 2025	Language ModelingLanguage Modelling	CodeCode Available	0
MLLM-For3D: Adapting Multimodal Large Language Model for 3D Reasoning Segmentation	Mar 23, 2025	Language ModelingLanguage Modelling	—Unverified	0
Distributed LLMs and Multimodal Large Language Models: A Survey on Advances, Challenges, and Future Directions	Mar 20, 2025	2D Object DetectionDistributed Computing	CodeCode Available	1
LEGION: Learning to Ground and Explain for Synthetic Image Detection	Mar 19, 2025	Artifact DetectionImage Manipulation	—Unverified	0
UPME: An Unsupervised Peer Review Framework for Multimodal Large Language Model Evaluation	Mar 19, 2025	Language Model EvaluationLanguage Modeling	—Unverified	0
SpaceVLLM: Endowing Multimodal Large Language Model with Spatio-Temporal Video Grounding Capability	Mar 18, 2025	Language ModelingLanguage Modelling	—Unverified	0
HiDe-LLaVA: Hierarchical Decoupling for Continual Instruction Tuning of Multimodal Large Language Model	Mar 17, 2025	Language ModelingLanguage Modelling	—Unverified	0
GeoRSMLLM: A Multimodal Large Language Model for Vision-Language Tasks in Geoscience and Remote Sensing	Mar 16, 2025	Change DetectionImage Captioning	—Unverified	0
When neural implant meets multimodal LLM: A dual-loop system for neuromodulation and naturalistic neuralbehavioral research	Mar 16, 2025	EEGLarge Language Model	—Unverified	0
Open3DVQA: A Benchmark for Comprehensive Spatial Reasoning with Multimodal Large Language Model in Open Space	Mar 14, 2025	Language ModelingLanguage Modelling	CodeCode Available	1
OmniDiff: A Comprehensive Benchmark for Fine-grained Image Difference Captioning	Mar 14, 2025	Large Language ModelMultimodal Large Language Model	—Unverified	0
GoT: Unleashing Reasoning Capability of Multimodal Large Language Model for Visual Generation and Editing	Mar 13, 2025	Image GenerationLanguage Modeling	CodeCode Available	3
CINEMA: Coherent Multi-Subject Video Generation via MLLM-Based Guidance	Mar 13, 2025	Large Language ModelMultimodal Large Language Model	—Unverified	0
Hybrid Agents for Image Restoration	Mar 13, 2025	Image RestorationIn-Context Learning	—Unverified	0
Referring to Any Person	Mar 11, 2025	Large Language ModelMultimodal Large Language Model	CodeCode Available	2
Lightweight Multimodal Artificial Intelligence Framework for Maritime Multi-Scene Recognition	Mar 10, 2025	Disaster ResponseLarge Language Model	—Unverified	0
Next Token Is Enough: Realistic Image Quality and Aesthetic Scoring with Multimodal Large Language Model	Mar 8, 2025	Image Quality AssessmentLanguage Modeling	CodeCode Available	2
R1-Omni: Explainable Omni-Multimodal Emotion Recognition with Reinforcement Learning	Mar 7, 2025	Emotion RecognitionLanguage Modeling	CodeCode Available	5
Keeping Yourself is Important in Downstream Tuning Multimodal Large Language Model	Mar 6, 2025	General KnowledgeImage Captioning	CodeCode Available	2
PP-DocBee: Improving Multimodal Document Understanding Through a Bag of Tricks	Mar 6, 2025	document understandingLanguage Modeling	CodeCode Available	0
CL-MoE: Enhancing Multimodal Large Language Model with Dual Momentum Mixture-of-Experts for Continual Visual Question Answering	Mar 1, 2025	Continual LearningLanguage Modeling	—Unverified	0
Towards General Visual-Linguistic Face Forgery Detection(V2)	Feb 28, 2025	HallucinationLanguage Modeling	CodeCode Available	1

Show:10 25 50

← PrevPage 4 of 14Next →

No leaderboard results yet.