Multimodal Large Language Model

Papers

Recently Added Most Hyped Most Active Needs Verification Most Verified

Showing 226–250 of 347 papers

Title	Date	Tasks	Status
J-EDI QA: Benchmark for deep-sea organism-specific multimodal LLM	Dec 20, 2024	Language ModelingLanguage Modelling	—Unverified
Multimodal Hypothetical Summary for Retrieval-based Multi-image Question Answering	Dec 19, 2024	Contrastive LearningLanguage Modeling	CodeCode Available
Make Imagination Clearer! Stable Diffusion-based Visual Imagination for Multimodal Machine Translation	Dec 17, 2024	Language ModelingLanguage Modelling	—Unverified
MERaLiON-SpeechEncoder: Towards a Speech Foundation Model for Singapore and Beyond	Dec 16, 2024	Language ModelingLanguage Modelling	—Unverified
A Survey of Mathematical Reasoning in the Era of Multimodal Large Language Model: Benchmark, Method & Challenges	Dec 16, 2024	Language ModelingLanguage Modelling	—Unverified
EasyRef: Omni-Generalized Group Image Reference for Diffusion Models via Multimodal LLM	Dec 12, 2024	Image ComprehensionImage Generation	—Unverified
COEF-VQ: Cost-Efficient Video Quality Understanding through a Cascaded Multimodal LLM Framework	Dec 11, 2024	GPULanguage Modeling	—Unverified
DiffSensei: Bridging Multi-Modal LLMs and Diffusion Models for Customized Manga Generation	Dec 10, 2024	Image GenerationLanguage Modelling	—Unverified
ILLUME: Illuminating Your LLMs to See, Draw, and Self-Enhance	Dec 9, 2024	Image GenerationLanguage Modeling	—Unverified
Expanding Performance Boundaries of Open-Source Multimodal Models with Model, Data, and Test-Time Scaling	Dec 6, 2024	document understandingHallucination	—Unverified
EgoPlan-Bench2: A Benchmark for Multimodal Large Language Model Planning in Real-World Scenarios	Dec 5, 2024	Language ModelingLanguage Modelling	—Unverified
EditScout: Locating Forged Regions from Diffusion-based Edited Images with Multimodal LLM	Dec 5, 2024	Image ManipulationLanguage Modeling	—Unverified
DynamicControl: Adaptive Condition Selection for Improved Text-to-Image Generation	Dec 4, 2024	Image GenerationLarge Language Model	—Unverified
ObjectFinder: An Open-Vocabulary Assistive System for Interactive Object Search by Blind People	Dec 4, 2024	Large Language ModelMultimodal Large Language Model	—Unverified
WSI-LLaVA: A Multimodal Large Language Model for Whole Slide Image	Dec 3, 2024	DiagnosticLanguage Modeling	—Unverified
MoTrans: Customized Motion Transfer with Text-driven Video Diffusion Models	Dec 2, 2024	Language ModelingLanguage Modelling	—Unverified
SeqAfford: Sequential 3D Affordance Reasoning via Multimodal Large Language Model	Dec 2, 2024	Language ModelingLanguage Modelling	—Unverified
Realistic Corner Case Generation for Autonomous Vehicles with Multimodal Large Language Model	Nov 29, 2024	Autonomous VehiclesLanguage Modeling	—Unverified
Multimodal large language model for wheat breeding: a new exploration of smart breeding	Nov 20, 2024	Language ModelingLanguage Modelling	—Unverified
StreetviewLLM: Extracting Geographic Information Using a Chain-of-Thought Multimodal Large Language Model	Nov 19, 2024	Decision MakingLanguage Modeling	—Unverified
CUE-M: Contextual Understanding and Enhanced Search with Multimodal Large Language Model	Nov 19, 2024	Information RetrievalLanguage Modeling	—Unverified
Med-2E3: A 2D-Enhanced 3D Medical Multimodal Large Language Model	Nov 19, 2024	Language ModelingLanguage Modelling	—Unverified
Value-Spectrum: Quantifying Preferences of Vision-Language Models via Value Decomposition in Social Media Contexts	Nov 18, 2024	BenchmarkingMultimodal Large Language Model	CodeCode Available
Learn from Downstream and Be Yourself in Multimodal Large Language Model Fine-Tuning	Nov 17, 2024	Image CaptioningLanguage Modeling	CodeCode Available
Mitigating Hallucination in Multimodal Large Language Model via Hallucination-targeted Direct Preference Optimization	Nov 15, 2024	HallucinationHallucination Evaluation	—Unverified

Show:10 25 50

← PrevPage 10 of 14Next →

No leaderboard results yet.