SOTAVerified|Agents Browse Leaderboard About Blog

multimodal interaction

Papers

Recently Added Most Hyped Most Active Needs Verification Most Verified

Showing 1–10 of 106 papers

Title	Date	Tasks	Status	Hype	Score
Stream-Omni: Simultaneous Multimodal Interactions with Large Language-Vision-Speech Model	Jun 16, 2025	Large Language Modelmultimodal interaction	CodeCode Available	5	5
Segment and Track Anything	May 11, 2023	Autonomous Drivingmultimodal interaction	CodeCode Available	4	5
Ming-Lite-Uni: Advancements in Unified Architecture for Natural Multimodal Interaction	May 5, 2025	Image Generationmultimodal interaction	CodeCode Available	4	5
Foundations and Recent Trends in Multimodal Mobile Agents: A Survey	Nov 4, 2024	multimodal interactionSurvey	CodeCode Available	2	5
Cross-Modal Implicit Relation Reasoning and Aligning for Text-to-Image Person Retrieval	Mar 22, 2023	Image-text matchingLanguage Modeling	CodeCode Available	2	5
Agent AI: Surveying the Horizons of Multimodal Interaction	Jan 7, 2024	multimodal interaction	CodeCode Available	2	5
I2MoE: Interpretable Multimodal Interaction-aware Mixture-of-Experts	May 25, 2025	Mixture-of-Expertsmultimodal interaction	CodeCode Available	2	5
Draw-and-Understand: Leveraging Visual Prompts to Enable MLLMs to Comprehend What You Want	Mar 29, 2024	Instruction FollowingLanguage Modelling	CodeCode Available	2	5
LOOK-M: Look-Once Optimization in KV Cache for Efficient Multimodal Long-Context Inference	Jun 26, 2024	multimodal interaction	CodeCode Available	2	5
OVTR: End-to-End Open-Vocabulary Multiple Object Tracking with Transformer	Mar 13, 2025	Decodermultimodal interaction	CodeCode Available	2	5

Show:10 25 50

← PrevPage 1 of 11Next →

No leaderboard results yet.