Temporal Localization

Papers

Recently Added Most Hyped Most Active Needs Verification Most Verified

Showing 1–50 of 153 papers

Title	Date	Tasks	Status	Hype
Fine-Tuning Large Audio-Language Models with LoRA for Precise Temporal Localization of Prolonged Exposure Therapy Elements	Jun 11, 2025	Temporal Localization	—Unverified	0
VideoMolmo: Spatio-Temporal Grounding Meets Pointing	Jun 5, 2025	Autonomous DrivingAutonomous Navigation	CodeCode Available	2
DisTime: Distribution-based Time Representation for Video Large Language Models	May 30, 2025	Temporal LocalizationVideo Understanding	CodeCode Available	1
Transforming faces into video stories -- VideoFace2.0	May 4, 2025	Face DetectionFace Recognition	CodeCode Available	0
MINERVA: Evaluating Complex Video Reasoning	May 1, 2025	BenchmarkingTemporal Localization	CodeCode Available	2
Hierarchical and Multimodal Data for Daily Activity Understanding	Apr 24, 2025	Action Anticipationcounterfactual	CodeCode Available	0
TimeSoccer: An End-to-End Multimodal Large Language Model for Soccer Commentary Generation	Apr 24, 2025	Caption GenerationDense Video Captioning	—Unverified	0
A Large-Language Model Framework for Relative Timeline Extraction from PubMed Case Reports	Apr 15, 2025	Language ModelingLanguage Modelling	—Unverified	0
Crash Time Matters: HybridMamba for Fine-Grained Temporal Localization in Traffic Surveillance Footage	Apr 4, 2025	Temporal Localization	—Unverified	0
SocialGesture: Delving into Multi-person Gesture Understanding	Apr 3, 2025	Gesture RecognitionQuestion Answering	—Unverified	0
ATARS: An Aerial Traffic Atomic Activity Recognition and Temporal Segmentation Dataset	Mar 24, 2025	Activity RecognitionTemporal Localization	CodeCode Available	0
Crab: A Unified Audio-Visual Scene Understanding Model with Explicit Cooperation	Mar 17, 2025	Data InteractionScene Understanding	CodeCode Available	2
VideoMind: A Chain-of-LoRA Agent for Long Video Reasoning	Mar 17, 2025	Grounded Video Question AnsweringQuestion Answering	CodeCode Available	3
Adapting to the Unknown: Training-Free Audio-Visual Event Perception with Dynamic Thresholds	Mar 17, 2025	Temporal Localization	CodeCode Available	0
Watch and Learn: Leveraging Expert Knowledge and Language for Surgical Video Understanding	Mar 14, 2025	DenoisingDense Video Captioning	—Unverified	0
Measure Twice, Cut Once: Grasping Video Structures and Event Semantics with LLMs for Video Temporal Localization	Mar 12, 2025	Temporal LocalizationVideo Understanding	—Unverified	0
Towards Fine-Grained Video Question Answering	Mar 10, 2025	Language ModelingLanguage Modelling	—Unverified	0
TimeLoc: A Unified End-to-End Framework for Precise Timestamp Localization in Long Videos	Mar 9, 2025	Action LocalizationBoundary Detection	CodeCode Available	1
Weakly Supervised Multiple Instance Learning for Whale Call Detection and Temporal Localization in Long-Duration Passive Acoustic Monitoring	Feb 28, 2025	Multiple Instance LearningTemporal Localization	CodeCode Available	0
Knowing Your Target: Target-Aware Transformer Makes Better Spatio-Temporal Video Grounding	Feb 16, 2025	AttributeObject	CodeCode Available	1
Fusion of Millimeter-wave Radar and Pulse Oximeter Data for Low-burden Diagnosis of Obstructive Sleep Apnea-Hypopnea Syndrome	Jan 25, 2025	DiagnosticSleep Staging	—Unverified	0
LLaVA-ST: A Multimodal Large Language Model for Fine-Grained Spatial-Temporal Understanding	Jan 14, 2025	Feature CompressionLanguage Modeling	CodeCode Available	2
Pseudo Strong Labels from Frame-Level Predictions for Weakly Supervised Sound Event Detection	Jan 7, 2025	Event DetectionSound Event Detection	—Unverified	0
Do Current Video LLMs Have Strong OCR Abilities? A Preliminary Study	Dec 29, 2024	Motion DetectionOptical Character Recognition	CodeCode Available	0
ShotVL: Human-Centric Highlight Frame Retrieval via Language Queries	Dec 17, 2024	Human Detectionimage-classification	—Unverified	0
TimeRefine: Temporal Grounding with Time Refining Video LLM	Dec 12, 2024	Temporal Localization	CodeCode Available	0
TimeMarker: A Versatile Video-LLM for Long and Short Video Understanding with Superior Temporal Localization Ability	Nov 27, 2024	Temporal LocalizationVideo Understanding	CodeCode Available	2
Number it: Temporal Grounding Videos like Flipping Manga	Nov 15, 2024	Highlight DetectionMoment Retrieval	CodeCode Available	2
Unsupervised detection and classification of heartbeats using the dissimilarity matrix in PCG signals	Nov 5, 2024	Heart SegmentationSound Classification	—Unverified	0
Detection of Sleep Apnea-Hypopnea Events Using Millimeter-wave Radar and Pulse Oximeter	Sep 28, 2024	Temporal Localization	—Unverified	0
Training-free Video Temporal Grounding using Large-scale Pre-trained Models	Aug 29, 2024	Temporal Localization	CodeCode Available	1
Impact of Noisy Labels on Sound Event Detection: Deletion Errors Are More Detrimental Than Insertion Errors	Aug 27, 2024	Event DetectionSound Event Detection	—Unverified	0
Described Spatial-Temporal Video Detection	Jul 8, 2024	Multi-class ClassificationTemporal Localization	—Unverified	0
Meerkat: Audio-Visual Large Language Model for Grounding in Space and Time	Jul 1, 2024	AUDIO-VISUAL QUESTION ANSWERING (MUSIC-AVQA-v2.0)Fact Checking	CodeCode Available	1
MLLM as Video Narrator: Mitigating Modality Imbalance in Video Moment Retrieval	Jun 25, 2024	cross-modal alignmentMoment Retrieval	—Unverified	0
OphNet: A Large-Scale Video Benchmark for Ophthalmic Surgical Workflow Understanding	Jun 11, 2024	Action UnderstandingDiversity	CodeCode Available	2
LITA: Language Instructed Temporal-Localization Assistant	Mar 27, 2024	Instruction FollowingTemporal Localization	CodeCode Available	2
Empowering LLMs with Pseudo-Untrimmed Videos for Audio-Visual Temporal Understanding	Mar 24, 2024	Dense Video CaptioningTemporal Localization	—Unverified	0
Skeleton-Based Human Action Recognition with Noisy Labels	Mar 15, 2024	Action RecognitionDenoising	CodeCode Available	0
Density-Guided Label Smoothing for Temporal Localization of Driving Actions	Mar 11, 2024	Action LocalizationAction Recognition	—Unverified	0
Transformer-based Fusion of 2D-pose and Spatio-temporal Embeddings for Distracted Driver Action Recognition	Mar 11, 2024	2D Human Pose EstimationAction Recognition	—Unverified	0
OLViT: Multi-Modal State Tracking via Attention-Based Embeddings for Video-Grounded Dialog	Feb 20, 2024	ObjectObject Tracking	—Unverified	0
Semi-supervised Active Learning for Video Action Detection	Dec 12, 2023	Action DetectionActive Learning	CodeCode Available	0
Deep-Learning-Assisted Analysis of Cataract Surgery Videos	Dec 10, 2023	Decision MakingDeep Learning	—Unverified	0
TimeChat: A Time-sensitive Multimodal Large Language Model for Long Video Understanding	Dec 4, 2023	Dense CaptioningHighlight Detection	CodeCode Available	2
Survey of Action Recognition, Spotting and Spatio-Temporal Localization in Soccer -- Current Trends and Research Perspectives	Sep 21, 2023	Action LocalizationAction Recognition	—Unverified	0
Cross-Video Contextual Knowledge Exploration and Exploitation for Ambiguity Reduction in Weakly Supervised Temporal Action Localization	Aug 24, 2023	Action LocalizationContrastive Learning	—Unverified	0
UnLoc: A Unified Framework for Video Localization Tasks	Aug 21, 2023	Action SegmentationMoment Retrieval	CodeCode Available	0
VideoGLUE: Video General Understanding Evaluation of Foundation Models	Jul 6, 2023	Action RecognitionTemporal Localization	CodeCode Available	0
Dense Video Object Captioning from Disjoint Supervision	Jun 20, 2023	ObjectSentence	CodeCode Available	0

Show:10 25 50

← PrevPage 1 of 4Next →

No leaderboard results yet.