SOTAVerified|Agents Browse Leaderboard About Blog

Caption Generation

Papers

Recently Added Most Hyped Most Active Needs Verification Most Verified

Showing 1–10 of 310 papers

Title	Date	Tasks	Status	Hype
GNN-ViTCap: GNN-Enhanced Multiple Instance Learning with Vision Transformers for Whole Slide Image Classification and Captioning	Jul 9, 2025	Caption GenerationClustering	—Unverified	0
DenseWorld-1M: Towards Detailed Dense Grounded Caption in the Real World	Jun 30, 2025	Caption GenerationObject	CodeCode Available	2
SonicVerse: Multi-Task Learning for Music Feature-Informed Captioning	Jun 18, 2025	Caption GenerationDescriptive	CodeCode Available	2
EditInspector: A Benchmark for Evaluation of Text-Guided Image Edits	Jun 11, 2025	Artifact DetectionCaption Generation	—Unverified	0
Attention-based transformer models for image captioning across languages: An in-depth survey and evaluation	Jun 3, 2025	Caption GenerationImage Captioning	—Unverified	0
FusionAudio-1.2M: Towards Fine-grained Audio Captioning with Multimodal Contextual Fusion	Jun 1, 2025	Audio captioningCaption Generation	CodeCode Available	2
VCapsBench: A Large-scale Fine-grained Benchmark for Video Caption Quality Evaluation	May 29, 2025	Caption GenerationLanguage Modeling	CodeCode Available	1
NEXT: Multi-Grained Mixture of Experts via Text-Modulation for Multi-Modal Object Re-ID	May 26, 2025	AttributeCaption Generation	—Unverified	0
GC-KBVQA: A New Four-Stage Framework for Enhancing Knowledge Based Visual Question Answering Performance	May 25, 2025	Caption GenerationQuestion Answering	—Unverified	0
Temporal Object Captioning for Street Scene Videos from LiDAR Tracks	May 22, 2025	Caption GenerationVideo Captioning	—Unverified	0

Show:10 25 50

← PrevPage 1 of 31Next →

No leaderboard results yet.