Multimodal Large Language Model

Papers

Recently Added Most Hyped Most Active Needs Verification Most Verified

Showing 151–200 of 347 papers

Title	Date	Tasks	Status	Score
Layout Generation Agents with Large Language Models	May 13, 2024	Language ModelingLanguage Modelling	CodeCode Available	5
Automatically Generating Visual Hallucination Test Cases for Multimodal Large Language Models	Oct 15, 2024	HallucinationLarge Language Model	CodeCode Available	5
Value-Spectrum: Quantifying Preferences of Vision-Language Models via Value Decomposition in Social Media Contexts	Nov 18, 2024	BenchmarkingMultimodal Large Language Model	CodeCode Available	5
MovSAM: A Single-image Moving Object Segmentation Framework Based on Deep Thinking	Apr 9, 2025	Autonomous DrivingLanguage Modeling	CodeCode Available	5
MedViLaM: A multimodal large language model with advanced generalizability and explainability for medical data understanding and generation	Sep 29, 2024	Language ModelingLanguage Modelling	CodeCode Available	5
Leveraging Multimodal LLM for Inspirational User Interface Search	Jan 29, 2025	Language ModelingLanguage Modelling	CodeCode Available	5
SeqAfford: Sequential 3D Affordance Reasoning via Multimodal Large Language Model	Dec 2, 2024	Language ModelingLanguage Modelling	—Unverified	0
SNIFFER: Multimodal Large Language Model for Explainable Out-of-Context Misinformation Detection	Mar 5, 2024	Concept AlignmentExplanation Generation	—Unverified	0
SpaceVLLM: Endowing Multimodal Large Language Model with Spatio-Temporal Video Grounding Capability	Mar 18, 2025	Language ModelingLanguage Modelling	—Unverified	0
ST^3: Accelerating Multimodal Large Language Model by Spatial-Temporal Visual Token Trimming	Dec 28, 2024	Language ModelingLanguage Modelling	—Unverified	0
StreetviewLLM: Extracting Geographic Information Using a Chain-of-Thought Multimodal Large Language Model	Nov 19, 2024	Decision MakingLanguage Modeling	—Unverified	0
Strengthening Multimodal Large Language Model with Bootstrapped Preference Optimization	Mar 13, 2024	Language ModelingLanguage Modelling	—Unverified	0
SubstationAI: Multimodal Large Model-Based Approaches for Analyzing Substation Equipment Faults	Dec 22, 2024	Data AugmentationFault Diagnosis	—Unverified	0
TalkFashion: Intelligent Virtual Try-On Assistant Based on Multimodal Large Language Model	Jul 8, 2025	Language ModelingLanguage Modelling	—Unverified	0
The NTNU System at the S&I Challenge 2025 SLA Open Track	Jun 5, 2025	Language ModelingLanguage Modelling	—Unverified	0
The Solution for CVPR2024 Foundational Few-Shot Object Detection Challenge	Jun 18, 2024	Few-Shot Object DetectionLanguage Modeling	—Unverified	0
Think Before You Diffuse: LLMs-Guided Physics-Aware Video Generation	May 27, 2025	Large Language ModelMultimodal Large Language Model	—Unverified	0
TimeSoccer: An End-to-End Multimodal Large Language Model for Soccer Commentary Generation	Apr 24, 2025	Caption GenerationDense Video Captioning	—Unverified	0
MERaLiON-SpeechEncoder: Towards a Speech Foundation Model for Singapore and Beyond	Dec 16, 2024	Language ModelingLanguage Modelling	—Unverified	0
Towards LLM-Centric Multimodal Fusion: A Survey on Integration Strategies and Techniques	Jun 5, 2025	cross-modal alignmentLarge Language Model	—Unverified	0
Towards Visual Text Grounding of Multimodal Large Language Model	Apr 7, 2025	BenchmarkingLanguage Modeling	—Unverified	0
Unbridled Icarus: A Survey of the Potential Perils of Image Inputs in Multimodal Large Language Model Security	Apr 8, 2024	Language ModelingLanguage Modelling	—Unverified	0
UniGen: Enhanced Training & Test-Time Strategies for Unified Multimodal Understanding and Generation	May 20, 2025	Image GenerationLanguage Modeling	—Unverified	0
UNIMO-G: Unified Image Generation through Multimodal Conditional Diffusion	Jan 24, 2024	Conditional Image GenerationDenoising	—Unverified	0
Universal Item Tokenization for Transferable Generative Recommendation	Apr 6, 2025	General KnowledgeLarge Language Model	—Unverified	0
UniVG-R1: Reasoning Guided Universal Visual Grounding with Reinforcement Learning	May 20, 2025	Large Language ModelMultimodal Large Language Model	—Unverified	0
UPME: An Unsupervised Peer Review Framework for Multimodal Large Language Model Evaluation	Mar 19, 2025	Language Model EvaluationLanguage Modeling	—Unverified	0
VGR: Visual Grounded Reasoning	Jun 13, 2025	Large Language ModelMath	—Unverified	0
Video Emotion Open-vocabulary Recognition Based on Multimodal Large Language Model	Aug 21, 2024	Emotion RecognitionLanguage Modeling	—Unverified	0
Video-of-Thought: Step-by-Step Video Reasoning from Perception to Cognition	May 7, 2024	Large Language ModelMultimodal Large Language Model	—Unverified	0
Vintern-1B: An Efficient Multimodal Large Language Model for Vietnamese	Aug 22, 2024	Language ModelingLanguage Modelling	—Unverified	0
Visual Question Answering Instruction: Unlocking Multimodal Large Language Model To Domain-Specific Visual Multitasks	Feb 13, 2024	Language ModelingLanguage Modelling	—Unverified	0
Visual Text Generation in the Wild	Jul 19, 2024	Language ModellingLarge Language Model	—Unverified	0
ViT3D Alignment of LLaMA3: 3D Medical Image Report Generation	Oct 11, 2024	DiagnosticLanguage Modeling	—Unverified	0
VL-Mamba: Exploring State Space Models for Multimodal Learning	Mar 20, 2024	Language ModelingLanguage Modelling	—Unverified	0
VMAD: Visual-enhanced Multimodal Large Language Model for Zero-Shot Anomaly Detection	Sep 30, 2024	Anomaly DetectionLanguage Modeling	—Unverified	0
VolDoGer: LLM-assisted Datasets for Domain Generalization in Vision-Language Tasks	Jul 29, 2024	Deep LearningDomain Generalization	—Unverified	0
Web-Scale Visual Entity Recognition: An LLM-Driven Data Approach	Oct 31, 2024	Language ModelingLanguage Modelling	—Unverified	0
What Changed? Detecting and Evaluating Instruction-Guided Image Edits with Multimodal Large Language Models	May 26, 2025	Language ModelingLanguage Modelling	—Unverified	0
When neural implant meets multimodal LLM: A dual-loop system for neuromodulation and naturalistic neuralbehavioral research	Mar 16, 2025	EEGLarge Language Model	—Unverified	0
WSI-LLaVA: A Multimodal Large Language Model for Whole Slide Image	Dec 3, 2024	DiagnosticLanguage Modeling	—Unverified	0
Multimodal large language model for wheat breeding: a new exploration of smart breeding	Nov 20, 2024	Language ModelingLanguage Modelling	—Unverified	0
A Large-scale Interpretable Multi-modality Benchmark for Facial Image Forgery Localization	Dec 27, 2024	Face SwappingImage Segmentation	—Unverified	0
AlignGPT: Multi-modal Large Language Models with Adaptive Alignment Capability	May 23, 2024	cross-modal alignmentLanguage Modelling	—Unverified	0
A Medical Multimodal Large Language Model for Pediatric Pneumonia	Sep 4, 2024	DiagnosticLanguage Modeling	—Unverified	0
A Neural Matrix Decomposition Recommender System Model based on the Multimodal Large Language Model	Jul 12, 2024	Language ModelingLanguage Modelling	—Unverified	0
A Novel Data Augmentation Approach for Automatic Speaking Assessment on Opinion Expressions	Jun 4, 2025	Data AugmentationDiversity	—Unverified	0
ASCD: Attention-Steerable Contrastive Decoding for Reducing Hallucination in MLLM	Jun 17, 2025	HallucinationLanguage Modeling	—Unverified	0
A Survey of Mathematical Reasoning in the Era of Multimodal Large Language Model: Benchmark, Method & Challenges	Dec 16, 2024	Language ModelingLanguage Modelling	—Unverified	0
A Survey on Multimodal Large Language Models	Jun 23, 2023	HallucinationIn-Context Learning	—Unverified	0

Show:10 25 50

← PrevPage 4 of 7Next →

No leaderboard results yet.