SOTAVerified|Agents Browse Leaderboard About

Natural Language Visual Grounding

Papers

Recently Added Most Hyped Most Active Needs Verification Most Verified

Showing 11–20 of 32 papers

Title	Date	Tasks	Status	Hype
SeeClick: Harnessing GUI Grounding for Advanced Visual GUI Agents	Jan 17, 2024	Natural Language Visual Grounding	CodeCode Available	3
CogAgent: A Visual Language Model for GUI Agents	Dec 14, 2023	Language Modeling	CodeCode Available	5
MiniGPT-v2: large language model as a unified interface for vision-language multi-task learning	Oct 14, 2023	Image ClassificationImage Description	CodeCode Available	7
Qwen-VL: A Versatile Vision-Language Model for Understanding, Localization, Text Reading, and Beyond	Aug 24, 2023	Chart Question AnsweringFS-MEVQA	CodeCode Available	5
Localizing Moments in Long Video Via Multimodal Guidance	Feb 26, 2023	Natural Language Moment RetrievalNatural Language Visual Grounding	CodeCode Available	1
Visual Writing Prompts: Character-Grounded Story Generation with Curated Image Sequences	Jan 20, 2023	Coherence EvaluationGrounded language learning	—Unverified	0
Belief Revision based Caption Re-ranker with Visual Semantic Information	Sep 16, 2022	Caption GenerationImage Captioning	CodeCode Available	1
TubeDETR: Spatio-Temporal Video Grounding with Transformers	Mar 30, 2022	DecoderLanguage-Based Temporal Localization	CodeCode Available	1
CALVIN: A Benchmark for Language-Conditioned Policy Learning for Long-Horizon Robot Manipulation Tasks	Dec 6, 2021	Continuous ControlImitation Learning	CodeCode Available	1
Panoptic Narrative Grounding	Sep 10, 2021	Natural Language Visual GroundingPanoptic Segmentation	CodeCode Available	1

Show:10 25 50

← PrevPage 2 of 4Next →

Benchmark Results

#	Model	Metric	Claimed	Verified	Status
1	UGround-V1-7B	Accuracy (%)	86.34	—	Unverified
2	Aguvis-7B	Accuracy (%)	83	—	Unverified
3	OS-Atlas-Base-7B	Accuracy (%)	82.47	—	Unverified
4	Aria-UI	Accuracy (%)	81.1	—	Unverified
5	Aguvis-G-7B	Accuracy (%)	81	—	Unverified
6	UGround-V1-2B	Accuracy (%)	77.67	—	Unverified
7	ShowUI	Accuracy (%)	75.1	—	Unverified
8	ShowUI-G	Accuracy (%)	75	—	Unverified
9	UGround	Accuracy (%)	73.3	—	Unverified
10	OmniParser	Accuracy (%)	73	—	Unverified