Multimodal Large Language Model

Papers

Recently Added Most Hyped Most Active Needs Verification Most Verified

Showing 1–50 of 347 papers

Title	Date	Tasks	Status	Hype
KptLLM++: Towards Generic Keypoint Comprehension with Large Language Model	Jul 15, 2025	Keypoint DetectionLanguage Modeling	—Unverified	0
MFGDiffusion: Mask-Guided Smoke Synthesis for Enhanced Forest Fire Detection	Jul 15, 2025	Fire DetectionImage Generation	CodeCode Available	0
LRMR: LLM-Driven Relational Multi-node Ranking for Lymph Node Metastasis Assessment in Rectal Cancer	Jul 15, 2025	DiagnosticLarge Language Model	—Unverified	0
Chat with AI: The Surprising Turn of Real-time Video Communication from Human to AI	Jul 14, 2025	Large Language ModelMultimodal Large Language Model	—Unverified	0
TalkFashion: Intelligent Virtual Try-On Assistant Based on Multimodal Large Language Model	Jul 8, 2025	Language ModelingLanguage Modelling	—Unverified	0
BlueLM-2.5-3B Technical Report	Jul 8, 2025	Large Language ModelMultimodal Large Language Model	—Unverified	0
CoT-lized Diffusion: Let's Reinforce T2I Generation Step-by-step	Jul 6, 2025	DenoisingLarge Language Model	—Unverified	0
Mask-aware Text-to-Image Retrieval: Referring Expression Segmentation Meets Cross-modal Retrieval	Jun 28, 2025	Cross-Modal RetrievalImage Captioning	—Unverified	0
OracleFusion: Assisting the Decipherment of Oracle Bone Script with Structurally Constrained Semantic Typography	Jun 26, 2025	DeciphermentLarge Language Model	CodeCode Available	0
ThinkSound: Chain-of-Thought Reasoning in Multimodal Large Language Models for Audio Generation and Editing	Jun 26, 2025	Audio GenerationLarge Language Model	CodeCode Available	5
MedTVT-R1: A Multimodal LLM Empowering Medical Reasoning and Diagnosis	Jun 23, 2025	DiagnosticLarge Language Model	CodeCode Available	1
ShareGPT-4o-Image: Aligning Multimodal Models with GPT-4o-Level Image Generation	Jun 22, 2025	GPUImage Generation	CodeCode Available	3
DreamJourney: Perpetual View Generation with Video Diffusion Models	Jun 21, 2025	Image to 3DLarge Language Model	—Unverified	0
The Condition Number as a Scale-Invariant Proxy for Information Encoding in Neural Units	Jun 19, 2025	Large Language ModelMultimodal Large Language Model	CodeCode Available	1
ASCD: Attention-Steerable Contrastive Decoding for Reducing Hallucination in MLLM	Jun 17, 2025	HallucinationLanguage Modeling	—Unverified	0
CFBenchmark-MM: Chinese Financial Assistant Benchmark for Multimodal Large Language Model	Jun 16, 2025	Decision MakingFinancial Analysis	—Unverified	0
VIS-Shepherd: Constructing Critic for LLM-based Data Visualization Generation	Jun 16, 2025	Data VisualizationLanguage Modeling	CodeCode Available	0
VGR: Visual Grounded Reasoning	Jun 13, 2025	Large Language ModelMath	—Unverified	0
PHRASED: Phrase Dictionary Biasing for Speech Translation	Jun 10, 2025	Language ModelingLanguage Modelling	—Unverified	0
Parking, Perception, and Retail: Street-Level Determinants of Community Vitality in Harbin	Jun 5, 2025	Large Language ModelMorphological Analysis	—Unverified	0
The NTNU System at the S&I Challenge 2025 SLA Open Track	Jun 5, 2025	Language ModelingLanguage Modelling	—Unverified	0
Towards LLM-Centric Multimodal Fusion: A Survey on Integration Strategies and Techniques	Jun 5, 2025	cross-modal alignmentLarge Language Model	—Unverified	0
A Novel Data Augmentation Approach for Automatic Speaking Assessment on Opinion Expressions	Jun 4, 2025	Data AugmentationDiversity	—Unverified	0
From Street Views to Urban Science: Discovering Road Safety Factors with Multimodal Large Language Models	Jun 2, 2025	Large Language ModelMultimodal Large Language Model	—Unverified	0
Period-LLM: Extending the Periodic Capability of Multimodal Large Language Model	May 30, 2025	Language ModelingLanguage Modelling	CodeCode Available	1
un^2CLIP: Improving CLIP's Visual Detail Capturing Ability via Inverting unCLIP	May 30, 2025	Large Language ModelMultimodal Large Language Model	CodeCode Available	1
S4-Driver: Scalable Self-Supervised Driving Multimodal Large Language Modelwith Spatio-Temporal Visual Representation	May 30, 2025	Autonomous DrivingAutonomous Vehicles	—Unverified	0
Cross-modal RAG: Sub-dimensional Retrieval-Augmented Text-to-Image Generation	May 28, 2025	Image GenerationLanguage Modeling	CodeCode Available	0
Think Before You Diffuse: LLMs-Guided Physics-Aware Video Generation	May 27, 2025	Large Language ModelMultimodal Large Language Model	—Unverified	0
GeoLLaVA-8K: Scaling Remote-Sensing Multimodal Large Language Models to 8K Resolution	May 27, 2025	8kAvg	CodeCode Available	1
OmniResponse: Online Multimodal Conversational Response Generation in Dyadic Interactions	May 27, 2025	Audio-Visual SynchronizationConversational Response Generation	—Unverified	0
What Changed? Detecting and Evaluating Instruction-Guided Image Edits with Multimodal Large Language Models	May 26, 2025	Language ModelingLanguage Modelling	—Unverified	0
Unifying Multimodal Large Language Model Capabilities and Modalities via Model Merging	May 26, 2025	Language ModelingLanguage Modelling	CodeCode Available	1
Diagnosing and Mitigating Modality Interference in Multimodal Large Language Models	May 26, 2025	image-classificationImage Classification	CodeCode Available	0
Guard Me If You Know Me: Protecting Specific Face-Identity from Deepfakes	May 26, 2025	DeepFake DetectionFace Generation	—Unverified	0
MLLM-Guided VLM Fine-Tuning with Joint Inference for Zero-Shot Composed Image Retrieval	May 26, 2025	Image RetrievalLarge Language Model	—Unverified	0
Multimodal LLM-Guided Semantic Correction in Text-to-Image Diffusion	May 26, 2025	DenoisingImage Generation	CodeCode Available	1
OpenHOI: Open-World Hand-Object Interaction Synthesis with Multimodal Large Language Model	May 25, 2025	Language ModelingLanguage Modelling	—Unverified	0
HoloLLM: Multisensory Foundation Model for Language-Grounded Human Sensing and Reasoning	May 23, 2025	Large Language ModelMultimodal Large Language Model	—Unverified	0
LLaDA-V: Large Language Diffusion Models with Visual Instruction Tuning	May 22, 2025	Language ModelingLanguage Modelling	—Unverified	0
ChemMLLM: Chemical Multimodal Large Language Model	May 22, 2025	Language ModelingLanguage Modelling	CodeCode Available	1
Dimple: Discrete Diffusion Multimodal Large Language Model with Parallel Decoding	May 22, 2025	Language ModelingLanguage Modelling	CodeCode Available	2
Human-centered Interactive Learning via MLLMs for Text-to-Image Person Re-identification	May 21, 2025	Data AugmentationLarge Language Model	—Unverified	0
Highlighting What Matters: Promptable Embeddings for Attribute-Focused Image Retrieval	May 21, 2025	AttributeImage Retrieval	—Unverified	0
Web-Shepherd: Advancing PRMs for Reinforcing Web Agents	May 21, 2025	Large Language ModelMultimodal Large Language Model	CodeCode Available	2
MIKU-PAL: An Automated and Standardized Multi-Modal Method for Speech Paralinguistic and Affect Labeling	May 21, 2025	Emotion RecognitionFace Detection	—Unverified	0
CAFES: A Collaborative Multi-Agent Framework for Multi-Granular Multimodal Essay Scoring	May 20, 2025	Automated Essay ScoringDiversity	—Unverified	0
UniGen: Enhanced Training & Test-Time Strategies for Unified Multimodal Understanding and Generation	May 20, 2025	Image GenerationLanguage Modeling	—Unverified	0
UniVG-R1: Reasoning Guided Universal Visual Grounding with Reinforcement Learning	May 20, 2025	Large Language ModelMultimodal Large Language Model	—Unverified	0
BusterX: MLLM-Powered AI-Generated Video Forgery Detection and Explanation	May 19, 2025	Binary ClassificationDeepFake Detection	CodeCode Available	1

Show:10 25 50

← PrevPage 1 of 7Next →

No leaderboard results yet.