SOTAVerified|Agents Browse Leaderboard About Blog

Dense Captioning

Papers

Recently Added Most Hyped Most Active Needs Verification Most Verified

Showing 1–10 of 69 papers

Title	Date	Tasks	Status	Hype
STSBench: A Spatio-temporal Scenario Benchmark for Multi-modal Large Language Models in Autonomous Driving	Jun 6, 2025	Autonomous DrivingAutonomous Vehicles	CodeCode Available	1
Does Your 3D Encoder Really Work? When Pretrain-SFT from 2D VLMs Meets 3D VLMs	Jun 5, 2025	cross-modal alignmentDense Captioning	—Unverified	0
TEMPURA: Temporal Event Masked Prediction and Understanding for Reasoning in Action	May 2, 2025	Dense CaptioningHighlight Detection	CodeCode Available	1
3D Spatial Understanding in MLLMs: Disambiguation and Evaluation	Dec 9, 2024	3D dense captioning3D visual grounding	—Unverified	0
PerLA: Perceptive 3D Language Assistant	Nov 29, 2024	Dense CaptioningGraph Neural Network	CodeCode Available	1
3D Scene Graph Guided Vision-Language Pre-training	Nov 27, 2024	3D dense captioning3D visual grounding	—Unverified	0
ComiCap: A VLMs pipeline for dense captioning of Comic Panels	Sep 24, 2024	AttributeDense Captioning	CodeCode Available	1
Hint-AD: Holistically Aligned Interpretability in End-to-End Autonomous Driving	Sep 10, 2024	3D dense captioningAutonomous Driving	—Unverified	0
xGen-VideoSyn-1: High-fidelity Text-to-Video Synthesis with Compressed Representations	Aug 22, 2024	Dense CaptioningMotion Estimation	—Unverified	0
See It All: Contextualized Late Aggregation for 3D Dense Captioning	Aug 14, 2024	3D dense captioningAll	—Unverified	0

Show:10 25 50

← PrevPage 1 of 7Next →

Benchmark Results

#	Model	Metric	Claimed	Verified	Status
1	ControlCap	mAP	18.2	—	Unverified
2	GRiT (ViT-B)	mAP	15.5	—	Unverified
3	CAG-Net	mAP	10.5	—	Unverified
4	FCLN	mAP	5.4	—	Unverified