SOTAVerified|Agents Browse Leaderboard About Blog

Multimodal Large Language Model

Papers

Recently Added Most Hyped Most Active Needs Verification Most Verified

Showing 1–10 of 347 papers

Title	Date	Tasks	Status	Hype
MagicQuill: An Intelligent Interactive Image Editing System	Nov 14, 2024	Language ModelingLanguage Modelling	CodeCode Available	7
VITA: Towards Open-Source Interactive Omni Multimodal LLM	Aug 9, 2024	Language ModelingLanguage Modelling	CodeCode Available	7
Hunyuan-DiT: A Powerful Multi-Resolution Diffusion Transformer with Fine-Grained Chinese Understanding	May 14, 2024	Image GenerationLanguage Modeling	CodeCode Available	7
ThinkSound: Chain-of-Thought Reasoning in Multimodal Large Language Models for Audio Generation and Editing	Jun 26, 2025	Audio GenerationLarge Language Model	CodeCode Available	5
R1-Omni: Explainable Omni-Multimodal Emotion Recognition with Reinforcement Learning	Mar 7, 2025	Emotion RecognitionLanguage Modeling	CodeCode Available	5
VisionLLM v2: An End-to-End Generalist Multimodal Large Language Model for Hundreds of Vision-Language Tasks	Jun 12, 2024	Image GenerationLanguage Modeling	CodeCode Available	5
Ovis: Structural Embedding Alignment for Multimodal Large Language Model	May 31, 2024	Language ModelingMultimodal Large Language Model	CodeCode Available	5
StarVector: Generating Scalable Vector Graphics Code from Images and Text	Dec 17, 2023	Code GenerationLanguage Modeling	CodeCode Available	5
Ferret: Refer and Ground Anything Anywhere at Any Granularity	Oct 11, 2023	HallucinationLanguage Modeling	CodeCode Available	5
R1-Onevision：An Open-Source Multimodal Large Language Model Capable of Deep Reasoning	Feb 24, 2025	Language ModelingLanguage Modelling	CodeCode Available	4

Show:10 25 50

← PrevPage 1 of 35Next →

No leaderboard results yet.