Multimodal Large Language Model

Papers

Recently Added Most Hyped Most Active Needs Verification Most Verified

Showing 201–225 of 347 papers

Title	Date	Tasks	Status
Audio-Visual LLM for Video Understanding	Dec 11, 2023	AudioCapsLanguage Modeling	—Unverified
Automated radiotherapy treatment planning guided by GPT-4Vision	Jun 21, 2024	In-Context LearningLanguage Modelling	—Unverified
Balancing Performance and Efficiency: A Multimodal Large Language Model Pruning Method based Image Text Interaction	Sep 2, 2024	Language ModelingLanguage Modelling	—Unverified
Beyond Retrieval: Joint Supervision and Multimodal Document Ranking for Textbook Question Answering	May 17, 2025	Document RankingLarge Language Model	—Unverified
Beyond Text: Implementing Multimodal Large Language Model-Powered Multi-Agent Systems Using a No-Code Platform	Jan 1, 2025	Code GenerationImage Generation	—Unverified
BlueLM-2.5-3B Technical Report	Jul 8, 2025	Large Language ModelMultimodal Large Language Model	—Unverified
CadVLM: Bridging Language and Vision in the Generation of Parametric CAD Sketches	Sep 26, 2024	Language ModelingLanguage Modelling	—Unverified
CAFES: A Collaborative Multi-Agent Framework for Multi-Granular Multimodal Essay Scoring	May 20, 2025	Automated Essay ScoringDiversity	—Unverified
Can Multimodal Large Language Model Think Analogically?	Nov 2, 2024	Language ModelingLanguage Modelling	—Unverified
CapeLLM: Support-Free Category-Agnostic Pose Estimation with Multimodal Large Language Models	Nov 11, 2024	2D Pose EstimationCategory-Agnostic Pose Estimation	—Unverified
CaRDiff: Video Salient Object Ranking Chain of Thought Reasoning for Saliency Prediction with Diffusion	Aug 21, 2024	Language ModellingLarge Language Model	—Unverified
CFBenchmark-MM: Chinese Financial Assistant Benchmark for Multimodal Large Language Model	Jun 16, 2025	Decision MakingFinancial Analysis	—Unverified
ChatEXAONEPath: An Expert-level Multimodal Large Language Model for Histopathology Using Whole Slide Images	Apr 17, 2025	Language ModelingLanguage Modelling	—Unverified
ChatGPT Meets Iris Biometrics	Aug 9, 2024	Face RecognitionIris Recognition	—Unverified
ChatSpot: Bootstrapping Multimodal LLMs via Precise Referring Instruction Tuning	Jul 18, 2023	Instruction FollowingLanguage Modeling	—Unverified
ChatTracker: Enhancing Visual Tracking Performance via Chatting with Multimodal Large Language Model	Nov 4, 2024	Language ModelingLanguage Modelling	—Unverified
Chat with AI: The Surprising Turn of Real-time Video Communication from Human to AI	Jul 14, 2025	Large Language ModelMultimodal Large Language Model	—Unverified
CINEMA: Coherent Multi-Subject Video Generation via MLLM-Based Guidance	Mar 13, 2025	Large Language ModelMultimodal Large Language Model	—Unverified
CleanMAP: Distilling Multimodal LLMs for Confidence-Driven Crowdsourced HD Map Updates	Apr 14, 2025	Autonomous NavigationLane Detection	—Unverified
CL-MoE: Enhancing Multimodal Large Language Model with Dual Momentum Mixture-of-Experts for Continual Visual Question Answering	Mar 1, 2025	Continual LearningLanguage Modeling	—Unverified
CLSP: High-Fidelity Contrastive Language-State Pre-training for Agent State Representation	Sep 24, 2024	Contrastive LearningLanguage Modeling	—Unverified
CoDi-2: In-Context, Interleaved, and Interactive Any-to-Any Generation	Nov 30, 2023	Image GenerationIn-Context Learning	—Unverified
CoDi-2: In-Context Interleaved and Interactive Any-to-Any Generation	Jan 1, 2024	Image GenerationLanguage Modeling	—Unverified
COEF-VQ: Cost-Efficient Video Quality Understanding through a Cascaded Multimodal LLM Framework	Dec 11, 2024	GPULanguage Modeling	—Unverified
Comics for Everyone: Generating Accessible Text Descriptions for Comic Strips	Oct 1, 2023	Language ModelingLanguage Modelling	—Unverified

Show:10 25 50

← PrevPage 9 of 14Next →

No leaderboard results yet.