Temporal Localization

Papers

Recently Added Most Hyped Most Active Needs Verification Most Verified

Showing 1–50 of 153 papers

Title	Date	Tasks	Status	Hype
VideoMind: A Chain-of-LoRA Agent for Long Video Reasoning	Mar 17, 2025	Grounded Video Question AnsweringQuestion Answering	CodeCode Available	3
VideoMolmo: Spatio-Temporal Grounding Meets Pointing	Jun 5, 2025	Autonomous DrivingAutonomous Navigation	CodeCode Available	2
MINERVA: Evaluating Complex Video Reasoning	May 1, 2025	BenchmarkingTemporal Localization	CodeCode Available	2
Crab: A Unified Audio-Visual Scene Understanding Model with Explicit Cooperation	Mar 17, 2025	Data InteractionScene Understanding	CodeCode Available	2
LLaVA-ST: A Multimodal Large Language Model for Fine-Grained Spatial-Temporal Understanding	Jan 14, 2025	Feature CompressionLanguage Modeling	CodeCode Available	2
TimeMarker: A Versatile Video-LLM for Long and Short Video Understanding with Superior Temporal Localization Ability	Nov 27, 2024	Temporal LocalizationVideo Understanding	CodeCode Available	2
Number it: Temporal Grounding Videos like Flipping Manga	Nov 15, 2024	Highlight DetectionMoment Retrieval	CodeCode Available	2
OphNet: A Large-Scale Video Benchmark for Ophthalmic Surgical Workflow Understanding	Jun 11, 2024	Action UnderstandingDiversity	CodeCode Available	2
LITA: Language Instructed Temporal-Localization Assistant	Mar 27, 2024	Instruction FollowingTemporal Localization	CodeCode Available	2
TimeChat: A Time-sensitive Multimodal Large Language Model for Long Video Understanding	Dec 4, 2023	Dense CaptioningHighlight Detection	CodeCode Available	2
Egocentric Video-Language Pretraining	Jun 3, 2022	Action RecognitionContrastive Learning	CodeCode Available	2
DisTime: Distribution-based Time Representation for Video Large Language Models	May 30, 2025	Temporal LocalizationVideo Understanding	CodeCode Available	1
TimeLoc: A Unified End-to-End Framework for Precise Timestamp Localization in Long Videos	Mar 9, 2025	Action LocalizationBoundary Detection	CodeCode Available	1
Knowing Your Target: Target-Aware Transformer Makes Better Spatio-Temporal Video Grounding	Feb 16, 2025	AttributeObject	CodeCode Available	1
Training-free Video Temporal Grounding using Large-scale Pre-trained Models	Aug 29, 2024	Temporal Localization	CodeCode Available	1
Meerkat: Audio-Visual Large Language Model for Grounding in Space and Time	Jul 1, 2024	AUDIO-VISUAL QUESTION ANSWERING (MUSIC-AVQA-v2.0)Fact Checking	CodeCode Available	1
Self-Chained Image-Language Model for Video Localization and Question Answering	May 11, 2023	Language ModelingLanguage Modelling	CodeCode Available	1
Unsupervised classification to improve the quality of a bird song recording dataset	Feb 15, 2023	Sound ClassificationTemporal Localization	CodeCode Available	1
Multi-Task Learning of Object State Changes from Uncurated Videos	Nov 24, 2022	Multi-Task LearningObject	CodeCode Available	1
LocVTP: Video-Text Pre-training for Temporal Localization	Jul 21, 2022	RetrievalTemporal Localization	CodeCode Available	1
Stargazer: A transformer-based driver action detection system for intelligent transportation	Jun 1, 2022	Action DetectionAction Recognition	CodeCode Available	1
Temporally Precise Action Spotting in Soccer Videos Using Dense Detection Anchors	May 20, 2022	Action SpottingData Augmentation	CodeCode Available	1
TubeDETR: Spatio-Temporal Video Grounding with Transformers	Mar 30, 2022	DecoderLanguage-Based Temporal Localization	CodeCode Available	1
Unsupervised Pre-training for Temporal Action Localization Tasks	Mar 25, 2022	Action LocalizationContrastive Learning	CodeCode Available	1
OpenTAL: Towards Open Set Temporal Action Localization	Mar 10, 2022	Action ClassificationAction Localization	CodeCode Available	1
End-to-End Semi-Supervised Learning for Video Action Detection	Mar 8, 2022	Action DetectionClassification Consistency	CodeCode Available	1
Explore-And-Match: Bridging Proposal-Based and Proposal-Free With Transformer for Sentence Grounding in Videos	Jan 25, 2022	Natural Language QueriesSentence	CodeCode Available	1
Few-Shot Temporal Action Localization with Query Adaptive Transformer	Oct 20, 2021	Action LocalizationAction Segmentation	CodeCode Available	1
Enriching Local and Global Contexts for Temporal Action Localization	Jul 27, 2021	Action ClassificationAction Localization	CodeCode Available	1
FineAction: A Fine-Grained Video Dataset for Temporal Action Localization	May 24, 2021	Action DetectionAction Localization	CodeCode Available	1
Weakly Supervised Action Selection Learning in Video	May 6, 2021	Temporal LocalizationWeakly Supervised Action Localization	CodeCode Available	1
Learning Salient Boundary Feature for Anchor-free Temporal Action Localization	Mar 24, 2021	Action LocalizationTemporal Action Localization	CodeCode Available	1
CityFlow-NL: Tracking and Retrieval of Vehicles at City Scale by Natural Language Descriptions	Jan 12, 2021	Multi-Object TrackingObject Tracking	CodeCode Available	1
TSP: Temporally-Sensitive Pretraining of Video Encoders for Localization Tasks	Nov 23, 2020	Action ClassificationAction Localization	CodeCode Available	1
Boundary-sensitive Pre-training for Temporal Localization in Videos	Nov 21, 2020	Action ClassificationClassification	CodeCode Available	1
VLG-Net: Video-Language Graph Matching Network for Video Grounding	Nov 19, 2020	Graph MatchingMoment Retrieval	CodeCode Available	1
Human-centric Spatio-Temporal Video Grounding With Visual Transformers	Nov 10, 2020	Referring ExpressionSentence	CodeCode Available	1
Video Moment Localization using Object Evidence and Reverse Captioning	Jun 18, 2020	Language-Based Temporal LocalizationLanguage Modelling	CodeCode Available	1
Dense-Caption Matching and Frame-Selection Gating for Temporal Localization in VideoQA	May 13, 2020	Image CaptioningMulti-Label Classification	CodeCode Available	1
Weakly Supervised Temporal Action Localization Using Deep Metric Learning	Jan 21, 2020	Action LocalizationMetric Learning	CodeCode Available	1
Finding Moments in Video Collections Using Natural Language	Jul 30, 2019	Moment RetrievalRe-Ranking	CodeCode Available	1
MAC: Mining Activity Concepts for Language-based Temporal Localization	Nov 21, 2018	Language-Based Temporal LocalizationTemporal Localization	CodeCode Available	1
Audio-Visual Event Localization in Unconstrained Videos	Mar 23, 2018	audio-visual event localizationTemporal Localization	CodeCode Available	1
TALL: Temporal Activity Localization via Language Query	May 5, 2017	Natural Language Queriesregression	CodeCode Available	1
Fine-Tuning Large Audio-Language Models with LoRA for Precise Temporal Localization of Prolonged Exposure Therapy Elements	Jun 11, 2025	Temporal Localization	—Unverified	0
Transforming faces into video stories -- VideoFace2.0	May 4, 2025	Face DetectionFace Recognition	CodeCode Available	0
TimeSoccer: An End-to-End Multimodal Large Language Model for Soccer Commentary Generation	Apr 24, 2025	Caption GenerationDense Video Captioning	—Unverified	0
Hierarchical and Multimodal Data for Daily Activity Understanding	Apr 24, 2025	Action Anticipationcounterfactual	CodeCode Available	0
A Large-Language Model Framework for Relative Timeline Extraction from PubMed Case Reports	Apr 15, 2025	Language ModelingLanguage Modelling	—Unverified	0
Crash Time Matters: HybridMamba for Fine-Grained Temporal Localization in Traffic Surveillance Footage	Apr 4, 2025	Temporal Localization	—Unverified	0

Show:10 25 50

← PrevPage 1 of 4Next →

No leaderboard results yet.