Multimodal Large Language Model

Papers

Recently Added Most Hyped Most Active Needs Verification Most Verified

Showing 151–200 of 347 papers

Title	Date	Tasks	Status
RAGAR, Your Falsehood Radar: RAG-Augmented Reasoning for Political Fact-Checking using Multimodal Large Language Models	Apr 18, 2024	Fact CheckingLanguage Modeling	—Unverified
RespLLM: Unifying Audio and Text with Multimodal LLMs for Generalized Respiratory Health Prediction	Oct 7, 2024	Language ModelingLanguage Modelling	—Unverified
S4-Driver: Scalable Self-Supervised Driving Multimodal Large Language Modelwith Spatio-Temporal Visual Representation	May 30, 2025	Autonomous DrivingAutonomous Vehicles	—Unverified
S4-Driver: Scalable Self-Supervised Driving Multimodal Large Language Model with Spatio-Temporal Visual Representation	Jan 1, 2025	Autonomous DrivingAutonomous Vehicles	—Unverified
Self-Corrected Multimodal Large Language Model for End-to-End Robot Manipulation	May 27, 2024	Instruction FollowingLanguage Modeling	—Unverified
SemGrasp: Semantic Grasp Generation via Language Aligned Discretization	Apr 4, 2024	Grasp GenerationLanguage Modeling	—Unverified
SeqAfford: Sequential 3D Affordance Reasoning via Multimodal Large Language Model	Dec 2, 2024	Language ModelingLanguage Modelling	—Unverified
SNIFFER: Multimodal Large Language Model for Explainable Out-of-Context Misinformation Detection	Mar 5, 2024	Concept AlignmentExplanation Generation	—Unverified
SpaceVLLM: Endowing Multimodal Large Language Model with Spatio-Temporal Video Grounding Capability	Mar 18, 2025	Language ModelingLanguage Modelling	—Unverified
ST^3: Accelerating Multimodal Large Language Model by Spatial-Temporal Visual Token Trimming	Dec 28, 2024	Language ModelingLanguage Modelling	—Unverified
StreetviewLLM: Extracting Geographic Information Using a Chain-of-Thought Multimodal Large Language Model	Nov 19, 2024	Decision MakingLanguage Modeling	—Unverified
Strengthening Multimodal Large Language Model with Bootstrapped Preference Optimization	Mar 13, 2024	Language ModelingLanguage Modelling	—Unverified
SubstationAI: Multimodal Large Model-Based Approaches for Analyzing Substation Equipment Faults	Dec 22, 2024	Data AugmentationFault Diagnosis	—Unverified
TalkFashion: Intelligent Virtual Try-On Assistant Based on Multimodal Large Language Model	Jul 8, 2025	Language ModelingLanguage Modelling	—Unverified
The NTNU System at the S&I Challenge 2025 SLA Open Track	Jun 5, 2025	Language ModelingLanguage Modelling	—Unverified
The Solution for CVPR2024 Foundational Few-Shot Object Detection Challenge	Jun 18, 2024	Few-Shot Object DetectionLanguage Modeling	—Unverified
Think Before You Diffuse: LLMs-Guided Physics-Aware Video Generation	May 27, 2025	Large Language ModelMultimodal Large Language Model	—Unverified
Realistic Corner Case Generation for Autonomous Vehicles with Multimodal Large Language Model	Nov 29, 2024	Autonomous VehiclesLanguage Modeling	—Unverified
A Large-scale Interpretable Multi-modality Benchmark for Facial Image Forgery Localization	Dec 27, 2024	Face SwappingImage Segmentation	—Unverified
AlignGPT: Multi-modal Large Language Models with Adaptive Alignment Capability	May 23, 2024	cross-modal alignmentLanguage Modelling	—Unverified
A Medical Multimodal Large Language Model for Pediatric Pneumonia	Sep 4, 2024	DiagnosticLanguage Modeling	—Unverified
A Neural Matrix Decomposition Recommender System Model based on the Multimodal Large Language Model	Jul 12, 2024	Language ModelingLanguage Modelling	—Unverified
A Novel Data Augmentation Approach for Automatic Speaking Assessment on Opinion Expressions	Jun 4, 2025	Data AugmentationDiversity	—Unverified
ASCD: Attention-Steerable Contrastive Decoding for Reducing Hallucination in MLLM	Jun 17, 2025	HallucinationLanguage Modeling	—Unverified
A Survey of Mathematical Reasoning in the Era of Multimodal Large Language Model: Benchmark, Method & Challenges	Dec 16, 2024	Language ModelingLanguage Modelling	—Unverified
A Survey on Multimodal Large Language Models	Jun 23, 2023	HallucinationIn-Context Learning	—Unverified
Audio-Visual LLM for Video Understanding	Dec 11, 2023	AudioCapsLanguage Modeling	—Unverified
Automated radiotherapy treatment planning guided by GPT-4Vision	Jun 21, 2024	In-Context LearningLanguage Modelling	—Unverified
Balancing Performance and Efficiency: A Multimodal Large Language Model Pruning Method based Image Text Interaction	Sep 2, 2024	Language ModelingLanguage Modelling	—Unverified
Beyond Retrieval: Joint Supervision and Multimodal Document Ranking for Textbook Question Answering	May 17, 2025	Document RankingLarge Language Model	—Unverified
Beyond Text: Implementing Multimodal Large Language Model-Powered Multi-Agent Systems Using a No-Code Platform	Jan 1, 2025	Code GenerationImage Generation	—Unverified
BlueLM-2.5-3B Technical Report	Jul 8, 2025	Large Language ModelMultimodal Large Language Model	—Unverified
CadVLM: Bridging Language and Vision in the Generation of Parametric CAD Sketches	Sep 26, 2024	Language ModelingLanguage Modelling	—Unverified
CAFES: A Collaborative Multi-Agent Framework for Multi-Granular Multimodal Essay Scoring	May 20, 2025	Automated Essay ScoringDiversity	—Unverified
Can Multimodal Large Language Model Think Analogically?	Nov 2, 2024	Language ModelingLanguage Modelling	—Unverified
CapeLLM: Support-Free Category-Agnostic Pose Estimation with Multimodal Large Language Models	Nov 11, 2024	2D Pose EstimationCategory-Agnostic Pose Estimation	—Unverified
CaRDiff: Video Salient Object Ranking Chain of Thought Reasoning for Saliency Prediction with Diffusion	Aug 21, 2024	Language ModellingLarge Language Model	—Unverified
CFBenchmark-MM: Chinese Financial Assistant Benchmark for Multimodal Large Language Model	Jun 16, 2025	Decision MakingFinancial Analysis	—Unverified
ChatEXAONEPath: An Expert-level Multimodal Large Language Model for Histopathology Using Whole Slide Images	Apr 17, 2025	Language ModelingLanguage Modelling	—Unverified
ChatGPT Meets Iris Biometrics	Aug 9, 2024	Face RecognitionIris Recognition	—Unverified
ChatSpot: Bootstrapping Multimodal LLMs via Precise Referring Instruction Tuning	Jul 18, 2023	Instruction FollowingLanguage Modeling	—Unverified
ChatTracker: Enhancing Visual Tracking Performance via Chatting with Multimodal Large Language Model	Nov 4, 2024	Language ModelingLanguage Modelling	—Unverified
Chat with AI: The Surprising Turn of Real-time Video Communication from Human to AI	Jul 14, 2025	Large Language ModelMultimodal Large Language Model	—Unverified
CINEMA: Coherent Multi-Subject Video Generation via MLLM-Based Guidance	Mar 13, 2025	Large Language ModelMultimodal Large Language Model	—Unverified
CleanMAP: Distilling Multimodal LLMs for Confidence-Driven Crowdsourced HD Map Updates	Apr 14, 2025	Autonomous NavigationLane Detection	—Unverified
CL-MoE: Enhancing Multimodal Large Language Model with Dual Momentum Mixture-of-Experts for Continual Visual Question Answering	Mar 1, 2025	Continual LearningLanguage Modeling	—Unverified
CLSP: High-Fidelity Contrastive Language-State Pre-training for Agent State Representation	Sep 24, 2024	Contrastive LearningLanguage Modeling	—Unverified
CoDi-2: In-Context, Interleaved, and Interactive Any-to-Any Generation	Nov 30, 2023	Image GenerationIn-Context Learning	—Unverified
CoDi-2: In-Context Interleaved and Interactive Any-to-Any Generation	Jan 1, 2024	Image GenerationLanguage Modeling	—Unverified
COEF-VQ: Cost-Efficient Video Quality Understanding through a Cascaded Multimodal LLM Framework	Dec 11, 2024	GPULanguage Modeling	—Unverified

Show:10 25 50

← PrevPage 4 of 7Next →

No leaderboard results yet.