Video Classification

Video Classification is the task of producing a label that is relevant to the video given its frames. A good video level classifier is one that not only provides accurate frame labels, but also best describes the entire video given the features and the annotations of the various frames in the video. For example, a video might contain a tree in some frame, but the label that is central to the video might be something else (e.g., “hiking”). The granularity of the labels that are needed to describe the frames and the video depends on the task. Typical tasks include assigning one or more global labels to the video, and assigning one or more labels for each frame inside the video.

Source: Efficient Large Scale Video Classification

Papers

Recently Added Most Hyped Most Active Needs Verification Most Verified

Showing 201–250 of 455 papers

Title	Date	Tasks	Status	Score
Video-based surgical skill assessment using 3D convolutional neural networks	Mar 6, 2019	Action Quality AssessmentSurgical Skills Evaluation	CodeCode Available	5
Approaches Toward Physical and General Video Anomaly Detection	Dec 14, 2021	Anomaly DetectionDensity Estimation	CodeCode Available	5
Video Classification with Channel-Separated Convolutional Networks	Apr 4, 2019	Action ClassificationAction Recognition	CodeCode Available	5
MetaVD: A Meta Video Dataset for enhancing human action recognition datasets	Nov 1, 2021	Action ClassificationAction Recognition	CodeCode Available	5
Efficient Lung Ultrasound Severity Scoring Using Dedicated Feature Extractor	Jan 21, 2025	DiagnosticKnowledge Distillation	CodeCode Available	5
Video Representation Learning and Latent Concept Mining for Large-scale Multi-label Video Classification	Jul 5, 2017	AttributeGeneral Classification	CodeCode Available	5
MLtuner: System Support for Automatic Machine Learning Tuning	Mar 20, 2018	BIG-bench Machine LearningGeneral Classification	CodeCode Available	5
Modeling Spatial-Temporal Clues in a Hybrid Deep Learning Framework for Video Classification	Apr 7, 2015	ClassificationGeneral Classification	CodeCode Available	5
Time- Memory- and Parameter-Efficient Visual Adaptation	Jan 1, 2024	GPUVideo Classification	—Unverified	0
Towards Automatic Speech Identification from Vocal Tract Shape Dynamics in Real-time MRI	Jul 29, 2018	Action RecognitionClassification	—Unverified	0
Towards Good Practices for Multi-modal Fusion in Large-scale Video Classification	Sep 16, 2018	ClassificationGeneral Classification	—Unverified	0
Towards Zero-Shot & Explainable Video Description by Reasoning over Graphs of Events in Space and Time	Jan 14, 2025	Object RecognitionText Generation	—Unverified	0
ToxVidLM: A Multimodal Framework for Toxicity Detection in Code-Mixed Videos	May 31, 2024	Video Classification	—Unverified	0
Traffic Congestion Prediction using Deep Convolutional Neural Networks: A Color-coding Approach	Sep 16, 2022	Classificationvehicle detection	—Unverified	0
Transfer-learning for video classification: Video Swin Transformer on multiple domains	Oct 18, 2022	Transfer LearningVideo Classification	—Unverified	0
Transformers Meet Visual Learning Understanding: A Comprehensive Review	Mar 24, 2022	image-classificationImage Classification	—Unverified	0
Truncate-Split-Contrast: A Framework for Learning from Mislabeled Videos	Dec 27, 2022	channel selectionContrastive Learning	—Unverified	0
Two-stream Collaborative Learning with Spatial-Temporal Attention for Video Classification	Nov 9, 2017	General ClassificationOptical Flow Estimation	—Unverified	0
Two-stream Convolutional Networks for Multi-frame Face Anti-spoofing	Aug 9, 2021	Face Anti-SpoofingFace Recognition	—Unverified	0
Two-Stream Transformer Architecture for Long Video Understanding	Aug 2, 2022	Action RecognitionGPU	—Unverified	0
Two-Stream Video Classification with Cross-Modality Attention	Aug 1, 2019	Action ClassificationAction Recognition	—Unverified	0
UAV-CROWD: Violent and non-violent crowd activity simulator from the perspective of UAV	Aug 13, 2022	Semantic SegmentationVideo Classification	—Unverified	0
Unbiasing through Textual Descriptions: Mitigating Representation Bias in Video Benchmarks	Mar 24, 2025	Common Sense ReasoningPrediction	—Unverified	0
Uncertainty-Aware Weakly Supervised Action Detection from Untrimmed Videos	Jul 21, 2020	Action DetectionAction Recognition	—Unverified	0
Unified Keypoint-based Action Recognition Framework via Structured Keypoint Pooling	Mar 27, 2023	Action LocalizationAction Recognition	—Unverified	0
UniForensics: Face Forgery Detection via General Facial Representation	Jul 26, 2024	Contrastive LearningDeepFake Detection	—Unverified	0
UNIVERSAL MODAL EMBEDDING OF DYNAMICS IN VIDEOS AND ITS APPLICATIONS	Sep 25, 2019	DecoderTime Series	—Unverified	0
Unsupervised Action Localization Crop in Video Retargeting for 3D ConvNets	Nov 14, 2021	Action LocalizationVideo Classification	—Unverified	0
SSCAP: Self-supervised Co-occurrence Action Parsing for Unsupervised Temporal Action Segmentation	May 29, 2021	Action ParsingAction Segmentation	—Unverified	0
Unsupervised Meta-Learning For Few-Shot Image Classification	Nov 28, 2018	ClassificationFew-Shot Image Classification	—Unverified	0
Variable-frame CNNLSTM for Breast Nodule Classification using Ultrasound Videos	Feb 17, 2025	ClassificationSpecificity	—Unverified	0
Video4MRI: An Empirical Study on Brain Magnetic Resonance Image Analytics with CNN-based Video Classification Frameworks	Feb 24, 2023	ClassificationData Augmentation	—Unverified	0
Video-Based Action Recognition Using Rate-Invariant Analysis of Covariance Trajectories	Mar 23, 2015	Action RecognitionGeneral Classification	—Unverified	0
Video Classification using Semantic Concept Co-occurrences	Jun 1, 2014	ClassificationGeneral Classification	—Unverified	0
Video Classification With CNNs: Using The Codec As A Spatio-Temporal Activity Sensor	Oct 14, 2017	ClassificationCloud Computing	—Unverified	0
Video Contents Understanding using Deep Neural Networks	Apr 29, 2020	object-detectionObject Detection	—Unverified	0
VideoGraph: Recognizing Minutes-Long Human Activities in Videos	May 13, 2019	Long-video Activity RecognitionVideo Classification	—Unverified	0
VideoSSL: Semi-Supervised Learning for Video Classification	Feb 29, 2020	ClassificationGeneral Classification	—Unverified	0
VideoCoCa: Video-Text Modeling with Zero-Shot Transfer from Contrastive Captioners	Dec 9, 2022	Question AnsweringRetrieval	—Unverified	0
Video Token Merging for Long-form Video Understanding	Oct 31, 2024	FormVideo Classification	—Unverified	0
Video Understanding as Machine Translation	Jun 12, 2020	Machine TranslationMetric Learning	—Unverified	0
VidTr: Video Transformer Without Convolutions	Apr 23, 2021	Action ClassificationAction Recognition	—Unverified	0
Visual Data Synthesis via GAN for Zero-Shot Video Classification	Apr 26, 2018	ClassificationGeneral Classification	—Unverified	0
Walk-Steered Convolution for Graph Classification	Apr 16, 2018	ClassificationClustering	—Unverified	0
When Video Classification Meets Incremental Classes	Jun 30, 2021	Classificationclass-incremental learning	—Unverified	0
Where and when to look? Spatial-temporal attention for action recognition in videos	May 1, 2019	Action RecognitionAction Recognition In Videos	—Unverified	0
DASZL: Dynamic Action Signatures for Zero-shot Learning	Dec 8, 2019	Action DetectionActivity Detection	—Unverified	0
Optimizing Temporal Convolutional Network inference on FPGA-based accelerators	May 7, 2020	SchedulingTime Series Analysis	—Unverified	0
3D CNN-PCA: A Deep-Learning-Based Parameterization for Complex Geomodels	Jul 16, 2020	Uncertainty QuantificationVideo Classification	—Unverified	0
Accurate and Efficient Two-Stage Gun Detection in Video	Mar 8, 2025	Anomaly DetectionObject	—Unverified	0

Show:10 25 50

← PrevPage 5 of 10Next →

All datasets Breakfast COIN MoB YouTube-8M Hockey Fight Detection Dataset Charades Home Action Genome Kinetics Multimodal PISA Something-Something V1 Something-Something V2 SRI-APPROVE Fine-Grained Video Classification

Benchmark Results

#	Model	Metric	Claimed	Verified	Status
1	HERMES	Accuracy (%)	95.2	—	Unverified
2	MA-LMM	Accuracy (%)	93	—	Unverified
3	S5	Accuracy (%)	90.7	—	Unverified
4	TranS4mer	Accuracy (%)	90.27	—	Unverified
5	D-Sprv.	Accuracy (%)	89.9	—	Unverified
6	ViS4mer	Accuracy (%)	88.2	—	Unverified
7	GHRM	Accuracy (%)	75.5	—	Unverified
8	Timeception	Accuracy (%)	71.3	—	Unverified
9	VideoGraph	Accuracy (%)	69.5	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	HERMES	Accuracy (%)	93.5	—	Unverified
2	MA-LMM	Accuracy (%)	93.2	—	Unverified
3	S5	Accuracy (%)	90.8	—	Unverified
4	D-Sprv.	Accuracy (%)	90	—	Unverified
5	TranS4mer	Accuracy (%)	89.3	—	Unverified
6	ViS4mer	Accuracy (%)	88.4	—	Unverified
7	TSN	Accuracy (%)	73.4	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	VTN	Accuracy	77.85	—	Unverified
2	I3D	Accuracy	72.11	—	Unverified
3	ConvLSTM	Accuracy	69.71	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	DCGN (self-attention graph pooling)	Hit@1	87.7	—	Unverified
2	Hierarchical LSTM with MoE	Hit@1	86.8	—	Unverified
3	Mixture-of-2-Experts	Hit@1	70.1	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	Structured Keypoint Pooling	Accuracy	99.5	—	Unverified
2	CNN+LSTM	1:1 Accuracy	98	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	Multigrid	mAP	38.2	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	Cooperative Ours (3rd-person)	Accuracy (%)	24.7	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	Multigrid	Top-1	77.6	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	Video	Accuracy (%)	73.95	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	MSNet-R50En (ours)	Top-5 Accuracy	84	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	MSNet-R50En (ours)	Top-5 Accuracy	91	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	Multi-Label Prototypes Contrastive Learning	AUPR	88.4	—	Unverified