SOTAVerified|Agents Browse Leaderboard About

Natural Language Visual Grounding

Papers

Recently Added Most Hyped Most Active Needs Verification Most Verified

Showing 11–20 of 32 papers

Title	Date	Tasks	Status	Hype
Navigating the Digital World as Humans Do: Universal Visual Grounding for GUI Agents	Oct 7, 2024	Natural Language Visual GroundingNavigate	CodeCode Available	3
SeeClick: Harnessing GUI Grounding for Advanced Visual GUI Agents	Jan 17, 2024	Natural Language Visual Grounding	CodeCode Available	3
GUICourse: From General Vision Language Models to Versatile GUI Agents	Jun 17, 2024	Natural Language Visual GroundingOptical Character Recognition (OCR)	CodeCode Available	2
Improved GUI Grounding via Iterative Narrowing	Nov 18, 2024	Language ModelingLanguage Modelling	CodeCode Available	1
Localizing Moments in Long Video Via Multimodal Guidance	Feb 26, 2023	Natural Language Moment RetrievalNatural Language Visual Grounding	CodeCode Available	1
Belief Revision based Caption Re-ranker with Visual Semantic Information	Sep 16, 2022	Caption GenerationImage Captioning	CodeCode Available	1
TubeDETR: Spatio-Temporal Video Grounding with Transformers	Mar 30, 2022	DecoderLanguage-Based Temporal Localization	CodeCode Available	1
CALVIN: A Benchmark for Language-Conditioned Policy Learning for Long-Horizon Robot Manipulation Tasks	Dec 6, 2021	Continuous ControlImitation Learning	CodeCode Available	1
Panoptic Narrative Grounding	Sep 10, 2021	Natural Language Visual GroundingPanoptic Segmentation	CodeCode Available	1
Panoptic Narrative Grounding	Jan 1, 2021	Natural Language Visual GroundingPanoptic Segmentation	CodeCode Available	1

Show:10 25 50

← PrevPage 2 of 4Next →

Benchmark Results

#	Model	Metric	Claimed	Verified	Status
1	UGround-V1-7B	Accuracy (%)	86.34	—	Unverified
2	Aguvis-7B	Accuracy (%)	83	—	Unverified
3	OS-Atlas-Base-7B	Accuracy (%)	82.47	—	Unverified
4	Aria-UI	Accuracy (%)	81.1	—	Unverified
5	Aguvis-G-7B	Accuracy (%)	81	—	Unverified
6	UGround-V1-2B	Accuracy (%)	77.67	—	Unverified
7	ShowUI	Accuracy (%)	75.1	—	Unverified
8	ShowUI-G	Accuracy (%)	75	—	Unverified
9	UGround	Accuracy (%)	73.3	—	Unverified
10	OmniParser	Accuracy (%)	73	—	Unverified