Multimodal Large Language Model

Papers

Recently Added Most Hyped Most Active Needs Verification Most Verified

Showing 151–200 of 347 papers

Title	Date	Tasks	Status
OmniResponse: Online Multimodal Conversational Response Generation in Dyadic Interactions	May 27, 2025	Audio-Visual SynchronizationConversational Response Generation	—Unverified
Guard Me If You Know Me: Protecting Specific Face-Identity from Deepfakes	May 26, 2025	DeepFake DetectionFace Generation	—Unverified
What Changed? Detecting and Evaluating Instruction-Guided Image Edits with Multimodal Large Language Models	May 26, 2025	Language ModelingLanguage Modelling	—Unverified
MLLM-Guided VLM Fine-Tuning with Joint Inference for Zero-Shot Composed Image Retrieval	May 26, 2025	Image RetrievalLarge Language Model	—Unverified
Diagnosing and Mitigating Modality Interference in Multimodal Large Language Models	May 26, 2025	image-classificationImage Classification	CodeCode Available
OpenHOI: Open-World Hand-Object Interaction Synthesis with Multimodal Large Language Model	May 25, 2025	Language ModelingLanguage Modelling	—Unverified
HoloLLM: Multisensory Foundation Model for Language-Grounded Human Sensing and Reasoning	May 23, 2025	Large Language ModelMultimodal Large Language Model	—Unverified
LLaDA-V: Large Language Diffusion Models with Visual Instruction Tuning	May 22, 2025	Language ModelingLanguage Modelling	—Unverified
Human-centered Interactive Learning via MLLMs for Text-to-Image Person Re-identification	May 21, 2025	Data AugmentationLarge Language Model	—Unverified
Highlighting What Matters: Promptable Embeddings for Attribute-Focused Image Retrieval	May 21, 2025	AttributeImage Retrieval	—Unverified
MIKU-PAL: An Automated and Standardized Multi-Modal Method for Speech Paralinguistic and Affect Labeling	May 21, 2025	Emotion RecognitionFace Detection	—Unverified
UniGen: Enhanced Training & Test-Time Strategies for Unified Multimodal Understanding and Generation	May 20, 2025	Image GenerationLanguage Modeling	—Unverified
CAFES: A Collaborative Multi-Agent Framework for Multi-Granular Multimodal Essay Scoring	May 20, 2025	Automated Essay ScoringDiversity	—Unverified
UniVG-R1: Reasoning Guided Universal Visual Grounding with Reinforcement Learning	May 20, 2025	Large Language ModelMultimodal Large Language Model	—Unverified
ORQA: A Benchmark and Foundation Model for Holistic Operating Room Modeling	May 19, 2025	Graph GenerationKnowledge Distillation	—Unverified
MindOmni: Unleashing Reasoning Generation in Vision Language Models with RGPO	May 19, 2025	DecoderImage Generation	CodeCode Available
Beyond Retrieval: Joint Supervision and Multimodal Document Ranking for Textbook Question Answering	May 17, 2025	Document RankingLarge Language Model	—Unverified
Batch Augmentation with Unimodal Fine-tuning for Multimodal Learning	May 10, 2025	Image AugmentationLarge Language Model	CodeCode Available
MonetGPT: Solving Puzzles Enhances MLLMs' Image Retouching Skills	May 9, 2025	Image RetouchingLarge Language Model	—Unverified
Is your multimodal large language model a good science tutor?	May 9, 2025	Language ModelingLanguage Modelling	—Unverified
On Path to Multimodal Generalist: General-Level and General-Bench	May 7, 2025	Large Language ModelMultimodal Large Language Model	—Unverified
Consistency-aware Fake Videos Detection on Short Video Platforms	Apr 30, 2025	Large Language ModelMultimodal Large Language Model	CodeCode Available
TimeSoccer: An End-to-End Multimodal Large Language Model for Soccer Commentary Generation	Apr 24, 2025	Caption GenerationDense Video Captioning	—Unverified
FaceInsight: A Multimodal Large Language Model for Face Perception	Apr 22, 2025	Language ModelingLanguage Modelling	—Unverified
ChatEXAONEPath: An Expert-level Multimodal Large Language Model for Histopathology Using Whole Slide Images	Apr 17, 2025	Language ModelingLanguage Modelling	—Unverified
InternVL3: Exploring Advanced Training and Test-Time Recipes for Open-Source Multimodal Models	Apr 14, 2025	Language ModelingLanguage Modelling	—Unverified
CleanMAP: Distilling Multimodal LLMs for Confidence-Driven Crowdsourced HD Map Updates	Apr 14, 2025	Autonomous NavigationLane Detection	—Unverified
Mavors: Multi-granularity Video Representation for Multimodal Large Language Model	Apr 14, 2025	Computational EfficiencyLanguage Modeling	—Unverified
Marmot: Multi-Agent Reasoning for Multi-Object Self-Correcting in Improving Image-Text Alignment	Apr 10, 2025	AI AgentAttribute	—Unverified
Face-LLaVA: Facial Expression and Attribute Understanding through Instruction Tuning	Apr 9, 2025	Action Unit DetectionAge Estimation	—Unverified
MovSAM: A Single-image Moving Object Segmentation Framework Based on Deep Thinking	Apr 9, 2025	Autonomous DrivingLanguage Modeling	CodeCode Available
Q-Agent: Quality-Driven Chain-of-Thought Image Restoration Agent through Robust Multimodal Large Language Model	Apr 9, 2025	Image Quality AssessmentImage Restoration	—Unverified
Towards Visual Text Grounding of Multimodal Large Language Model	Apr 7, 2025	BenchmarkingLanguage Modeling	—Unverified
Universal Item Tokenization for Transferable Generative Recommendation	Apr 6, 2025	General KnowledgeLarge Language Model	—Unverified
Towards Unified Referring Expression Segmentation Across Omni-Level Visual Target Granularities	Apr 2, 2025	DescriptiveLarge Language Model	CodeCode Available
Open-Qwen2VL: Compute-Efficient Pre-Training of Fully-Open Multimodal LLMs on Academic Resources	Apr 1, 2025	GPULarge Language Model	—Unverified
Orchestrate Multimodal Data with Batch Post-Balancing to Accelerate Multimodal Large Language Model Training	Mar 31, 2025	GPULanguage Modeling	—Unverified
Dynamic Pyramid Network for Efficient Multimodal Large Language Model	Mar 26, 2025	Language ModelingLanguage Modelling	CodeCode Available
MLLM-For3D: Adapting Multimodal Large Language Model for 3D Reasoning Segmentation	Mar 23, 2025	Language ModelingLanguage Modelling	—Unverified
UPME: An Unsupervised Peer Review Framework for Multimodal Large Language Model Evaluation	Mar 19, 2025	Language Model EvaluationLanguage Modeling	—Unverified
LEGION: Learning to Ground and Explain for Synthetic Image Detection	Mar 19, 2025	Artifact DetectionImage Manipulation	—Unverified
SpaceVLLM: Endowing Multimodal Large Language Model with Spatio-Temporal Video Grounding Capability	Mar 18, 2025	Language ModelingLanguage Modelling	—Unverified
HiDe-LLaVA: Hierarchical Decoupling for Continual Instruction Tuning of Multimodal Large Language Model	Mar 17, 2025	Language ModelingLanguage Modelling	—Unverified
When neural implant meets multimodal LLM: A dual-loop system for neuromodulation and naturalistic neuralbehavioral research	Mar 16, 2025	EEGLarge Language Model	—Unverified
GeoRSMLLM: A Multimodal Large Language Model for Vision-Language Tasks in Geoscience and Remote Sensing	Mar 16, 2025	Change DetectionImage Captioning	—Unverified
OmniDiff: A Comprehensive Benchmark for Fine-grained Image Difference Captioning	Mar 14, 2025	Large Language ModelMultimodal Large Language Model	—Unverified
CINEMA: Coherent Multi-Subject Video Generation via MLLM-Based Guidance	Mar 13, 2025	Large Language ModelMultimodal Large Language Model	—Unverified
Hybrid Agents for Image Restoration	Mar 13, 2025	Image RestorationIn-Context Learning	—Unverified
Lightweight Multimodal Artificial Intelligence Framework for Maritime Multi-Scene Recognition	Mar 10, 2025	Disaster ResponseLarge Language Model	—Unverified
PP-DocBee: Improving Multimodal Document Understanding Through a Bag of Tricks	Mar 6, 2025	document understandingLanguage Modeling	—Unverified

Show:10 25 50

← PrevPage 4 of 7Next →

No leaderboard results yet.