Zero-Shot Action Recognition

Papers

Recently Added Most Hyped Most Active Needs Verification Most Verified

Showing 1–50 of 83 papers

Title	Date	Tasks	Status	Hype
The Role of Video Generation in Enhancing Data-Limited Action Understanding	May 26, 2025	Action RecognitionAction Understanding	—Unverified	0
Can masking background and object reduce static bias for zero-shot action recognition?	Jan 22, 2025	Action RecognitionZero-Shot Action Recognition	—Unverified	0
Semantic-guided Cross-Modal Prompt Learning for Skeleton-based Zero-shot Action Recognition	Jan 1, 2025	Action RecognitionComputational Efficiency	—Unverified	0
Building a Multi-modal Spatiotemporal Expert for Zero-shot Action Recognition with CLIP	Dec 13, 2024	Action RecognitionText Augmentation	CodeCode Available	1
LoCATe-GAT: Modeling Multi-Scale Local Context and Action Relationships for Zero-Shot Action Recognition	Nov 27, 2024	Action RecognitionGraph Attention	CodeCode Available	0
TDSM: Triplet Diffusion for Skeleton-Text Matching in Zero-Shot Action Recognition	Nov 16, 2024	Action RecognitionSkeleton Based Action Recognition	CodeCode Available	1
Zero-Shot Action Recognition in Surveillance Videos	Oct 28, 2024	Action RecognitionVideo Understanding	—Unverified	0
Continual Learning Improves Zero-Shot Action Recognition	Oct 14, 2024	Action RecognitionContinual Learning	—Unverified	0
Zero-Shot Skeleton-based Action Recognition with Dual Visual-Text Alignment	Sep 22, 2024	Action RecognitionMetric Learning	—Unverified	0
Text-Enhanced Zero-Shot Action Recognition: A training-free approach	Aug 29, 2024	Action RecognitionTemporal Action Localization	—Unverified	0
Part-aware Unified Representation of Language and Skeleton for Zero-shot Action Recognition	Jun 19, 2024	Action RecognitionSkeleton Based Action Recognition	CodeCode Available	1
An Information Compensation Framework for Zero-Shot Skeleton-based Action Recognition	Jun 2, 2024	Action RecognitionEnsemble Learning	—Unverified	0
A Cross-Dataset Study for Text-based 3D Human Motion Retrieval	May 27, 2024	Action RecognitionRetrieval	—Unverified	0
The impact of Compositionality in Zero-shot Multi-label action recognition for Object-based tasks	May 14, 2024	Action RecognitionAction Recognition In Videos	—Unverified	0
Leveraging Temporal Contextualization for Video Action Recognition	Apr 15, 2024	Action RecognitionTemporal Action Localization	CodeCode Available	2
Fine-Grained Side Information Guided Dual-Prompts for Zero-Shot Skeleton Action Recognition	Apr 11, 2024	Action RecognitionAttribute	—Unverified	0
ActionHub: A Large-scale Action Video Description Dataset for Zero-shot Action Recognition	Jan 22, 2024	Action RecognitionVideo Description	—Unverified	0
EZ-CLIP: Efficient Zeroshot Video Action Recognition	Dec 13, 2023	Action RecognitionGPU	CodeCode Available	1
OST: Refining Text Knowledge with Optimal Spatio-Temporal Descriptor for General Video Recognition	Nov 30, 2023	DescriptiveLanguage Modelling	CodeCode Available	1
LanguageBind: Extending Video-Language Pretraining to N-modality by Language-based Semantic Alignment	Oct 3, 2023	Audio ClassificationContrastive Learning	CodeCode Available	4
Telling Stories for Common Sense Zero-Shot Action Recognition	Sep 29, 2023	Action RecognitionArticles	CodeCode Available	0
Orthogonal Temporal Interpolation for Zero-Shot Video Recognition	Aug 14, 2023	Video RecognitionZero-Shot Action Recognition	CodeCode Available	0
Actor-agnostic Multi-label Action Recognition with Multi-modal Query	Jul 20, 2023	Action ClassificationAction Recognition	CodeCode Available	1
InternVid: A Large-scale Video-Text Dataset for Multimodal Understanding and Generation	Jul 13, 2023	Action RecognitionContrastive Learning	—Unverified	0
Alternating Gradient Descent and Mixture-of-Experts for Integrated Multimodal Perception	May 10, 2023	Classificationimage-classification	—Unverified	0
Vita-CLIP: Video and text adaptive CLIP via Multimodal Prompting	Apr 6, 2023	Action RecognitionPrompt Learning	CodeCode Available	1
Synthetic Sample Selection for Generalized Zero-Shot Learning	Apr 6, 2023	feature selectionGeneralized Zero-Shot Learning	—Unverified	0
VicTR: Video-conditioned Text Representations for Activity Recognition	Apr 5, 2023	Action ClassificationActivity Recognition	—Unverified	0
EVA-CLIP: Improved Training Techniques for CLIP at Scale	Mar 27, 2023	Image ClassificationRepresentation Learning	CodeCode Available	1
MAtch, eXpand and Improve: Unsupervised Finetuning for Zero-Shot Action Recognition with Language Knowledge	Mar 15, 2023	Action RecognitionFew-Shot action recognition	CodeCode Available	1
Improving Zero-Shot Action Recognition using Human Instruction with Text Description	Jan 21, 2023	Action RecognitionSentence	—Unverified	0
Bidirectional Cross-Modal Knowledge Exploration for Video Recognition with Pre-trained Vision-Language Models	Dec 31, 2022	Action ClassificationAction Recognition	CodeCode Available	2
VideoCoCa: Video-Text Modeling with Zero-Shot Transfer from Contrastive Captioners	Dec 9, 2022	Question AnsweringRetrieval	—Unverified	0
REST: REtrieve & Self-Train for generative action recognition	Sep 29, 2022	Action RecognitionCaption Generation	—Unverified	0
Global Semantic Descriptors for Zero-Shot Action Recognition	Sep 24, 2022	Action ClassificationAction Recognition	CodeCode Available	0
Expanding Language-Image Pretrained Models for General Video Recognition	Aug 4, 2022	Action ClassificationAction Recognition	CodeCode Available	3
Multimodal Open-Vocabulary Video Classification via Pre-Trained Vision and Language Models	Jul 15, 2022	Optical Flow EstimationVideo Classification	—Unverified	0
Revisiting Classifier: Transferring Vision-Language Models for Video Recognition	Jul 4, 2022	Action ClassificationAction Recognition	CodeCode Available	2
Learning Using Privileged Information for Zero-Shot Action Recognition	Jun 17, 2022	Action RecognitionHallucination	—Unverified	0
A CLIP-Hitchhiker's Guide to Long Video Retrieval	May 17, 2022	RetrievalVideo Retrieval	CodeCode Available	1
Cross-modal Representation Learning for Zero-shot Action Recognition	May 3, 2022	Action RecognitionRepresentation Learning	—Unverified	0
MILES: Visual BERT Pre-training with Injected Language Semantics for Video-text Retrieval	Apr 26, 2022	Action RecognitionRetrieval	CodeCode Available	1
Alignment-Uniformity aware Representation Learning for Zero-shot Video Classification	Mar 29, 2022	Representation LearningVideo Classification	CodeCode Available	1
Rethinking Zero-shot Action Recognition: Learning from Latent Atomic Actions	Mar 28, 2022	Action RecognitionZero-Shot Action Recognition	CodeCode Available	0
FitCLIP: Refining Large-Scale Pretrained Image-Text Models for Zero-Shot Video Understanding Tasks	Mar 24, 2022	Action RecognitionRetrieval	CodeCode Available	0
End-to-End Semantic Video Transformer for Zero-Shot Action Recognition	Mar 10, 2022	Action RecognitionTemporal Action Localization	CodeCode Available	0
Universal Prototype Transport for Zero-Shot Action Recognition and Localization	Mar 8, 2022	Action RecognitionObject	—Unverified	0
Bridging Video-text Retrieval with Multiple Choice Questions	Jan 13, 2022	Action RecognitionLinear evaluation	CodeCode Available	1
Tell me what you see: A zero-shot action recognition method based on natural language descriptions	Dec 18, 2021	Action RecognitionDescriptive	CodeCode Available	1
Reformulating Zero-shot Action Recognition for Multi-label Actions	Dec 1, 2021	Action ClassificationAction Detection	—Unverified	0

Show:10 25 50

← PrevPage 1 of 2Next →

All datasets UCF101 HMDB51 Kinetics Olympics ActivityNet Charades THUMOS' 14

Benchmark Results

#	Model	Metric	Claimed	Verified	Status
1	OTI(ViT-L/14)	Top-1 Accuracy	92.8	—	Unverified
2	IMP-MoE-L	Top-1 Accuracy	91.5	—	Unverified
3	MOV (ViT-L/14)	Top-1 Accuracy	87.1	—	Unverified
4	VideoCoCa	Top-1 Accuracy	86.6	—	Unverified
5	BIKE	Top-1 Accuracy	86.6	—	Unverified
6	Text4Vis	Top-1 Accuracy	85.8	—	Unverified
7	TC-CLIP	Top-1 Accuracy	85.4	—	Unverified
8	EVA-CLIP-E/14+	Top-1 Accuracy	83.1	—	Unverified
9	MOV (ViT-B/16)	Top-1 Accuracy	82.6	—	Unverified
10	OST	Top-1 Accuracy	79.7	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	MOV (ViT-L/14)	Top-1 Accuracy	64.7	—	Unverified
2	OTI(ViT-L/14)	Top-1 Accuracy	64	—	Unverified
3	BIKE	Top-1 Accuracy	61.4	—	Unverified
4	MOV (ViT-B/16)	Top-1 Accuracy	60.8	—	Unverified
5	IMP-MoE-L	Top-1 Accuracy	59.1	—	Unverified
6	VideoCoCa	Top-1 Accuracy	58.7	—	Unverified
7	Text4Vis	Top-1 Accuracy	58.4	—	Unverified
8	TC-CLIP	Top-1 Accuracy	56	—	Unverified
9	OST	Top-1 Accuracy	55.9	—	Unverified
10	MAXI	Top-1 Accuracy	52.3	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	TC-CLIP	Top-1 Accuracy	78.1	—	Unverified
2	IMP-MoE-L	Top-1 Accuracy	76.8	—	Unverified
3	OST	Top-1 Accuracy	75.1	—	Unverified
4	MAXI	Top-1 Accuracy	71.6	—	Unverified
5	OTI（ViT-L/14）	Top-1 Accuracy	70.6	—	Unverified
6	VideoCoCa	Top-1 Accuracy	70.1	—	Unverified
7	Text4Vis	Top-1 Accuracy	68.9	—	Unverified
8	BIKE	Top-1 Accuracy	68.5	—	Unverified
9	X-CLIP	Top-1 Accuracy	65.2	—	Unverified
10	LanguageBind	Top-1 Accuracy	64.1	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	SPOT	Top-1 Accuracy	68.7	—	Unverified
2	CLASTER	Top-1 Accuracy	68.4	—	Unverified
3	ER-ZSAR	Top-1 Accuracy	60.2	—	Unverified
4	ZSECOC	Top-1 Accuracy	59.8	—	Unverified
5	TS-GCN	Top-1 Accuracy	56.5	—	Unverified
6	SJE(Atrribute)	Top-1 Accuracy	47.5	—	Unverified
7	MTE	Top-1 Accuracy	44.3	—	Unverified
8	ESZSL	Top-1 Accuracy	39.6	—	Unverified
9	SJE(Word Embedding)	Top-1 Accuracy	28.6	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	BIKE	Top-1 Accuracy	86.2	—	Unverified
2	Text4Vis	Top-1 Accuracy	84.6	—	Unverified
3	LoCATe-GAT	Top-1 Accuracy	73.8	—	Unverified
4	ResT	Top-1 Accuracy	32.5	—	Unverified
5	E2E	Top-1 Accuracy	26.6	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	MSQNet	mAP	35.59	—	Unverified
2	VideoCoCa	mAP	25.8	—	Unverified
3	MAXI	mAP	23.8	—	Unverified
4	CLIP-Hitchhiker (ViT-B/16, 32 frames)	mAP	21.1	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	MSQNet	Accuracy	75.33	—	Unverified