Multimodal Large Language Model

Papers

Recently Added Most Hyped Most Active Needs Verification Most Verified

Showing 326–347 of 347 papers

Title	Date	Tasks	Status
Value-Spectrum: Quantifying Preferences of Vision-Language Models via Value Decomposition in Social Media Contexts	Nov 18, 2024	BenchmarkingMultimodal Large Language Model	CodeCode Available
OracleFusion: Assisting the Decipherment of Oracle Bone Script with Structurally Constrained Semantic Typography	Jun 26, 2025	DeciphermentLarge Language Model	CodeCode Available
TourSynbio-Search: A Large Language Model Driven Agent Framework for Unified Search Method for Protein Engineering	Nov 9, 2024	Information RetrievalLanguage Modeling	CodeCode Available
Multimodal Hypothetical Summary for Retrieval-based Multi-image Question Answering	Dec 19, 2024	Contrastive LearningLanguage Modeling	CodeCode Available
VideoQA in the Era of LLMs: An Empirical Study	Aug 8, 2024	Multimodal Large Language ModelVideo Question Answering	CodeCode Available
MovSAM: A Single-image Moving Object Segmentation Framework Based on Deep Thinking	Apr 9, 2025	Autonomous DrivingLanguage Modeling	CodeCode Available
Cross-modal RAG: Sub-dimensional Retrieval-Augmented Text-to-Image Generation	May 28, 2025	Image GenerationLanguage Modeling	CodeCode Available
Towards Real Zero-Shot Camouflaged Object Segmentation without Camouflaged Annotations	Oct 22, 2024	Camouflaged Object SegmentationLarge Language Model	CodeCode Available
MLLM-SUL: Multimodal Large Language Model for Semantic Scene Understanding and Localization in Traffic Scenarios	Dec 27, 2024	Autonomous DrivingLanguage Modeling	CodeCode Available
Towards Unified Referring Expression Segmentation Across Omni-Level Visual Target Granularities	Apr 2, 2025	DescriptiveLarge Language Model	CodeCode Available
Layout Generation Agents with Large Language Models	May 13, 2024	Language ModelingLanguage Modelling	CodeCode Available
TRINS: Towards Multimodal Language Models that Can Read	Jun 10, 2024	Language ModelingLanguage Modelling	CodeCode Available
MIP-GAF: A MLLM-annotated Benchmark for Most Important Person Localization and Group Context Understanding	Sep 10, 2024	BenchmarkingLanguage Modeling	CodeCode Available
MindOmni: Unleashing Reasoning Generation in Vision Language Models with RGPO	May 19, 2025	DecoderImage Generation	CodeCode Available
Dynamic Pyramid Network for Efficient Multimodal Large Language Model	Mar 26, 2025	Language ModelingLanguage Modelling	CodeCode Available
MFGDiffusion: Mask-Guided Smoke Synthesis for Enhanced Forest Fire Detection	Jul 15, 2025	Fire DetectionImage Generation	CodeCode Available
VIS-Shepherd: Constructing Critic for LLM-based Data Visualization Generation	Jun 16, 2025	Data VisualizationLanguage Modeling	CodeCode Available
Visual Anchors Are Strong Information Aggregators For Multimodal Large Language Model	May 28, 2024	Language ModelingLanguage Modelling	CodeCode Available
Batch Augmentation with Unimodal Fine-tuning for Multimodal Learning	May 10, 2025	Image AugmentationLarge Language Model	CodeCode Available
V-Zen: Efficient GUI Understanding and Precise Grounding With A Novel Multimodal LLM	May 24, 2024	Language ModellingLarge Language Model	CodeCode Available
AdaptVision: Dynamic Input Scaling in MLLMs for Versatile Scene Understanding	Aug 30, 2024	Language ModellingLarge Language Model	CodeCode Available
MedViLaM: A multimodal large language model with advanced generalizability and explainability for medical data understanding and generation	Sep 29, 2024	Language ModelingLanguage Modelling	CodeCode Available

Show:10 25 50

← PrevPage 14 of 14Next →

No leaderboard results yet.