SOTAVerified|Agents Browse Leaderboard About Blog

Multimodal Large Language Model

Papers

Recently Added Most Hyped Most Active Needs Verification Most Verified

Showing 11–20 of 347 papers

Title	Date	Tasks	Status	Hype
Liquid: Language Models are Scalable Multi-modal Generators	Dec 5, 2024	Language ModelingLanguage Modelling	CodeCode Available	4
SEED-Story: Multimodal Long Story Generation with Large Language Model	Jul 11, 2024	Image GenerationLanguage Modeling	CodeCode Available	4
SEED-Data-Edit Technical Report: A Hybrid Dataset for Instructional Image Editing	May 7, 2024	Image ManipulationLanguage Modeling	CodeCode Available	4
Groma: Localized Visual Tokenization for Grounding Multimodal Large Language Models	Apr 19, 2024	Language ModelingLanguage Modelling	CodeCode Available	4
MiniGPT4-Video: Advancing Multimodal LLMs for Video Understanding with Interleaved Visual-Textual Tokens	Apr 4, 2024	Language ModelingLanguage Modelling	CodeCode Available	4
ShareGPT-4o-Image: Aligning Multimodal Models with GPT-4o-Level Image Generation	Jun 22, 2025	GPUImage Generation	CodeCode Available	3
GoT: Unleashing Reasoning Capability of Multimodal Large Language Model for Visual Generation and Editing	Mar 13, 2025	Image GenerationLanguage Modeling	CodeCode Available	3
AsymLoRA: Harmonizing Data Conflicts and Commonalities in MLLMs	Feb 27, 2025	Language ModelingLanguage Modelling	CodeCode Available	3
VARGPT: Unified Understanding and Generation in a Visual Autoregressive Multimodal Large Language Model	Jan 21, 2025	Image GenerationInstruction Following	CodeCode Available	3
Valley2: Exploring Multimodal Models with Scalable Vision-Language Design	Jan 10, 2025	Image CaptioningLanguage Modeling	CodeCode Available	3

Show:10 25 50

← PrevPage 2 of 35Next →

No leaderboard results yet.