Multimodal Large Language Model

Papers

Recently Added Most Hyped Most Active Needs Verification Most Verified

Showing 301–325 of 347 papers

Title	Date	Tasks	Status
Automated radiotherapy treatment planning guided by GPT-4Vision	Jun 21, 2024	In-Context LearningLanguage Modelling	—Unverified
The Solution for CVPR2024 Foundational Few-Shot Object Detection Challenge	Jun 18, 2024	Few-Shot Object DetectionLanguage Modeling	—Unverified
TRINS: Towards Multimodal Language Models that Can Read	Jun 10, 2024	Language ModelingLanguage Modelling	CodeCode Available
Efficient Indirect LLM Jailbreak via Multimodal-LLM Jailbreak	May 30, 2024	Language ModelingLanguage Modelling	—Unverified
Visual Anchors Are Strong Information Aggregators For Multimodal Large Language Model	May 28, 2024	Language ModelingLanguage Modelling	CodeCode Available
Self-Corrected Multimodal Large Language Model for End-to-End Robot Manipulation	May 27, 2024	Instruction FollowingLanguage Modeling	—Unverified
V-Zen: Efficient GUI Understanding and Precise Grounding With A Novel Multimodal LLM	May 24, 2024	Language ModellingLarge Language Model	CodeCode Available
AlignGPT: Multi-modal Large Language Models with Adaptive Alignment Capability	May 23, 2024	cross-modal alignmentLanguage Modelling	—Unverified
Layout Generation Agents with Large Language Models	May 13, 2024	Language ModelingLanguage Modelling	CodeCode Available
Video-of-Thought: Step-by-Step Video Reasoning from Perception to Cognition	May 7, 2024	Large Language ModelMultimodal Large Language Model	—Unverified
How Far Are We to GPT-4V? Closing the Gap to Commercial Multimodal Models with Open-Source Suites	Apr 25, 2024	4kLanguage Modeling	—Unverified
Multimodal Large Language Model is a Human-Aligned Annotator for Text-to-Image Generation	Apr 23, 2024	Image GenerationLanguage Modeling	—Unverified
RAGAR, Your Falsehood Radar: RAG-Augmented Reasoning for Political Fact-Checking using Multimodal Large Language Models	Apr 18, 2024	Fact CheckingLanguage Modeling	—Unverified
GUIDE: Graphical User Interface Data for Execution	Apr 9, 2024	Language ModellingLarge Language Model	—Unverified
Unbridled Icarus: A Survey of the Potential Perils of Image Inputs in Multimodal Large Language Model Security	Apr 8, 2024	Language ModelingLanguage Modelling	—Unverified
SemGrasp: Semantic Grasp Generation via Language Aligned Discretization	Apr 4, 2024	Grasp GenerationLanguage Modeling	—Unverified
Hear Me, See Me, Understand Me: Audio-Visual Autism Behavior Recognition	Mar 22, 2024	Language ModellingLarge Language Model	—Unverified
VL-Mamba: Exploring State Space Models for Multimodal Learning	Mar 20, 2024	Language ModelingLanguage Modelling	—Unverified
Strengthening Multimodal Large Language Model with Bootstrapped Preference Optimization	Mar 13, 2024	Language ModelingLanguage Modelling	—Unverified
Multimodal Transformer for Comics Text-Cloze	Mar 6, 2024	Language ModelingLanguage Modelling	—Unverified
SNIFFER: Multimodal Large Language Model for Explainable Out-of-Context Misinformation Detection	Mar 5, 2024	Concept AlignmentExplanation Generation	—Unverified
MIKO: Multimodal Intention Knowledge Distillation from Large Language Models for Social-Media Commonsense Discovery	Feb 28, 2024	Knowledge DistillationLanguage Modeling	—Unverified
LLM-Assisted Multi-Teacher Continual Learning for Visual Question Answering in Robotic Surgery	Feb 26, 2024	Continual LearningExemplar-Free	CodeCode Available
MMMModal -- Multi-Images Multi-Audio Multi-turn Multi-Modal	Feb 17, 2024	Language ModelingLanguage Modelling	—Unverified
Visual Question Answering Instruction: Unlocking Multimodal Large Language Model To Domain-Specific Visual Multitasks	Feb 13, 2024	Language ModelingLanguage Modelling	—Unverified

Show:10 25 50

← PrevPage 13 of 14Next →

No leaderboard results yet.