Video Description

The goal of automatic Video Description is to tell a story about events happening in a video. While early Video Description methods produced captions for short clips that were manually segmented to contain a single event of interest, more recently dense video captioning has been proposed to both segment distinct events in time and describe them in a series of coherent sentences. This problem is a generalization of dense image region captioning and has many practical applications, such as generating textual summaries for the visually impaired, or detecting and describing important events in surveillance footage.

Source: Joint Event Detection and Description in Continuous Video Streams

Papers

Recently Added Most Hyped Most Active Needs Verification Most Verified

Showing 26–50 of 104 papers

Title	Date	Tasks	Status
FIOVA: A Multi-Annotator Benchmark for Human-Aligned Video Captioning	Oct 20, 2024	DiagnosticVideo Captioning	—Unverified
VideoCLIP-XL: Advancing Long Description Understanding for Video CLIP Models	Oct 1, 2024	Hallucinationtext similarity	—Unverified
Technical Report: Competition Solution For Modelscope-Sora	Sep 24, 2024	Text-to-Video GenerationVideo Description	—Unverified
Kubrick: Multimodal Agent Collaborations for Synthetic Video Generation	Aug 19, 2024	Instruction FollowingLarge Language Model	—Unverified
SUSTechGAN: Image Generation for Object Detection in Adverse Conditions of Autonomous Driving	Jul 18, 2024	Autonomous DrivingImage Generation	CodeCode Available
https://arxiv.org/abs/2407.00634	Jul 2, 2024	Video CaptioningVideo Description	CodeCode Available
LLAVIDAL: A Large LAnguage VIsion Model for Daily Activities of Living	Jun 13, 2024	BenchmarkingHuman-Object Interaction Detection	—Unverified
A Labelled Dataset for Sentiment Analysis of Videos on YouTube, TikTok, and Other Sources about the 2024 Outbreak of Measles	Jun 11, 2024	Sentiment AnalysisSubjectivity Analysis	—Unverified
X-VARS: Introducing Explainability in Football Refereeing with Multi-Modal Large Language Model	Apr 7, 2024	Action RecognitionDecision Making	—Unverified
JMI at SemEval 2024 Task 3: Two-step approach for multimodal ECAC using in-context learning with GPT and instruction-tuned Llama models	Mar 5, 2024	In-Context LearningVideo Description	CodeCode Available
Multi-modal News Understanding with Professionally Labelled Videos (ReutersViLNews)	Jan 23, 2024	MiscellaneousVideo Description	—Unverified
ActionHub: A Large-scale Action Video Description Dataset for Zero-shot Action Recognition	Jan 22, 2024	Action RecognitionVideo Description	—Unverified
Attention Based Encoder Decoder Model for Video Captioning in Nepali (2023)	Dec 12, 2023	DecoderVideo Captioning	—Unverified
Multi Sentence Description of Complex Manipulation Action Videos	Nov 13, 2023	DecoderSentence	—Unverified
CLearViD: Curriculum Learning for Video Description	Nov 8, 2023	DiversityVideo Description	—Unverified
Analyzing Political Figures in Real-Time: Leveraging YouTube Metadata for Sentiment Analysis	Sep 28, 2023	Sentiment AnalysisVideo Description	—Unverified
MSVD-Indonesian: A Benchmark for Multimodal Video-Text Tasks in Indonesian	Jun 20, 2023	Cross-Lingual TransferRetrieval	CodeCode Available
Edit As You Wish: Video Caption Editing with Multi-grained User Control	May 15, 2023	AttributePosition	CodeCode Available
Learn to Understand Negation in Video Retrieval	Apr 30, 2022	Natural Language QueriesNegation	CodeCode Available
Synchronized Audio-Visual Frames with Fractional Positional Encoding for Transformers in Video-to-Text Translation	Dec 28, 2021	Image CaptioningMachine Translation	—Unverified
Relational Graph Learning for Grounded Video Description Generation	Dec 2, 2021	Graph LearningHallucination	—Unverified
An Efficient Keyframes Selection Based Framework for Video Captioning	Dec 1, 2021	Text GenerationVideo Captioning	—Unverified
NarrationBot and InfoBot: A Hybrid System for Automated Video Description	Nov 7, 2021	Video Description	—Unverified
Visual-aware Attention Dual-stream Decoder for Video Captioning	Oct 16, 2021	DecoderVideo Captioning	—Unverified
Boosting Video Captioning with Dynamic Loss Network	Jul 25, 2021	image-classificationImage Classification	—Unverified

Show:10 25 50

← PrevPage 2 of 5Next →

No leaderboard results yet.