SOTAVerified|Agents Browse Leaderboard About Blog

3D dense captioning

Dense captioning in 3D point clouds is an emerging vision-and-language task involving object-level 3D scene understanding. Apart from coarse semantic class prediction and bounding box regression as in traditional 3D object detection, 3D dense captioning aims at producing a further and finer instance-level label of natural language description on visual appearance and spatial relations for each scene object of interest.

Papers

Recently Added Most Hyped Most Active Needs Verification Most Verified

Showing 21–26 of 26 papers

Title	Date	Tasks	Status
D3Net: A Unified Speaker-Listener Architecture for 3D Dense Captioning and Visual Grounding	Dec 2, 2021	3D dense captioning3D visual grounding	—Unverified
0/1 Deep Neural Networks via Block Coordinate Descent	Jun 19, 2022	10-shot image generation	—Unverified
UniT3D: A Unified Transformer for 3D Dense Captioning and Visual Grounding	Dec 1, 2022	3D dense captioning3D visual grounding	—Unverified
3D CoCa: Contrastive Learners are 3D Captioners	Apr 13, 2025	3D dense captioningCaption Generation	CodeCode Available
MARVEL-40M+: Multi-Level Visual Elaboration for High-Fidelity Text-to-3D Content Creation	Nov 26, 2024	3D dense captioning3D Object Captioning	CodeCode Available
Rethinking 3D Dense Caption and Visual Grounding in A Unified Framework through Prompt-based Localization	Apr 17, 2024	3D dense captioning3D visual grounding	CodeCode Available

Show:10 25 50

← PrevPage 3 of 3Next →

No leaderboard results yet.