Zero-Shot Action Recognition

Papers

Recently Added Most Hyped Most Active Needs Verification Most Verified

Showing 1–50 of 83 papers

Title	Date	Tasks	Status	Hype
LanguageBind: Extending Video-Language Pretraining to N-modality by Language-based Semantic Alignment	Oct 3, 2023	Audio ClassificationContrastive Learning	CodeCode Available	4
Expanding Language-Image Pretrained Models for General Video Recognition	Aug 4, 2022	Action ClassificationAction Recognition	CodeCode Available	3
Leveraging Temporal Contextualization for Video Action Recognition	Apr 15, 2024	Action RecognitionTemporal Action Localization	CodeCode Available	2
Revisiting Classifier: Transferring Vision-Language Models for Video Recognition	Jul 4, 2022	Action ClassificationAction Recognition	CodeCode Available	2
Bidirectional Cross-Modal Knowledge Exploration for Video Recognition with Pre-trained Vision-Language Models	Dec 31, 2022	Action ClassificationAction Recognition	CodeCode Available	2
TDSM: Triplet Diffusion for Skeleton-Text Matching in Zero-Shot Action Recognition	Nov 16, 2024	Action RecognitionSkeleton Based Action Recognition	CodeCode Available	1
Building a Multi-modal Spatiotemporal Expert for Zero-shot Action Recognition with CLIP	Dec 13, 2024	Action RecognitionText Augmentation	CodeCode Available	1
Rethinking Zero-shot Video Classification: End-to-end Training for Realistic Applications	Mar 3, 2020	BenchmarkingGeneral Classification	CodeCode Available	1
Part-aware Unified Representation of Language and Skeleton for Zero-shot Action Recognition	Jun 19, 2024	Action RecognitionSkeleton Based Action Recognition	CodeCode Available	1
ActionCLIP: A New Paradigm for Video Action Recognition	Sep 17, 2021	Action ClassificationAction Recognition	CodeCode Available	1
Elaborative Rehearsal for Zero-shot Action Recognition	Aug 5, 2021	Action RecognitionFew-Shot Learning	CodeCode Available	1
OST: Refining Text Knowledge with Optimal Spatio-Temporal Descriptor for General Video Recognition	Nov 30, 2023	DescriptiveLanguage Modelling	CodeCode Available	1
Actor-agnostic Multi-label Action Recognition with Multi-modal Query	Jul 20, 2023	Action ClassificationAction Recognition	CodeCode Available	1
Vita-CLIP: Video and text adaptive CLIP via Multimodal Prompting	Apr 6, 2023	Action RecognitionPrompt Learning	CodeCode Available	1
Learning Spatiotemporal Features via Video and Text Pair Discrimination	Jan 16, 2020	Action ClassificationAction Recognition	CodeCode Available	1
MILES: Visual BERT Pre-training with Injected Language Semantics for Video-text Retrieval	Apr 26, 2022	Action RecognitionRetrieval	CodeCode Available	1
MAtch, eXpand and Improve: Unsupervised Finetuning for Zero-Shot Action Recognition with Language Knowledge	Mar 15, 2023	Action RecognitionFew-Shot action recognition	CodeCode Available	1
Alignment-Uniformity aware Representation Learning for Zero-shot Video Classification	Mar 29, 2022	Representation LearningVideo Classification	CodeCode Available	1
A CLIP-Hitchhiker's Guide to Long Video Retrieval	May 17, 2022	RetrievalVideo Retrieval	CodeCode Available	1
EVA-CLIP: Improved Training Techniques for CLIP at Scale	Mar 27, 2023	Image ClassificationRepresentation Learning	CodeCode Available	1
Tell me what you see: A zero-shot action recognition method based on natural language descriptions	Dec 18, 2021	Action RecognitionDescriptive	CodeCode Available	1
EZ-CLIP: Efficient Zeroshot Video Action Recognition	Dec 13, 2023	Action RecognitionGPU	CodeCode Available	1
Bridging Video-text Retrieval with Multiple Choice Questions	Jan 13, 2022	Action RecognitionLinear evaluation	CodeCode Available	1
Zero-Shot Skeleton-based Action Recognition with Dual Visual-Text Alignment	Sep 22, 2024	Action RecognitionMetric Learning	—Unverified	0
A Cross-Dataset Study for Text-based 3D Human Motion Retrieval	May 27, 2024	Action RecognitionRetrieval	—Unverified	0
Action2Vec: A Crossmodal Embedding Approach to Action Learning	Jan 2, 2019	Action RecognitionGeneral Classification	—Unverified	0
ActionHub: A Large-scale Action Video Description Dataset for Zero-shot Action Recognition	Jan 22, 2024	Action RecognitionVideo Description	—Unverified	0
Action Recognition in Untrimmed Videos with Composite Self-Attention Two-Stream Framework	Aug 4, 2019	Action RecognitionTemporal Action Localization	—Unverified	0
A Generative Approach to Zero-Shot and Few-Shot Action Recognition	Jan 27, 2018	Action RecognitionAttribute	—Unverified	0
All About Knowledge Graphs for Actions	Aug 28, 2020	Action RecognitionAll	—Unverified	0
Alternating Gradient Descent and Mixture-of-Experts for Integrated Multimodal Perception	May 10, 2023	Classificationimage-classification	—Unverified	0
Alternative Semantic Representations for Zero-Shot Human Action Recognition	Jun 28, 2017	Action RecognitionTemporal Action Localization	—Unverified	0
An Information Compensation Framework for Zero-Shot Skeleton-based Action Recognition	Jun 2, 2024	Action RecognitionEnsemble Learning	—Unverified	0
Can masking background and object reduce static bias for zero-shot action recognition?	Jan 22, 2025	Action RecognitionZero-Shot Action Recognition	—Unverified	0
CLASTER: Clustering with Reinforcement Learning for Zero-Shot Action Recognition	Jan 18, 2021	Action RecognitionClustering	—Unverified	0
Continual Learning Improves Zero-Shot Action Recognition	Oct 14, 2024	Action RecognitionContinual Learning	—Unverified	0
Cross-modal Representation Learning for Zero-shot Action Recognition	May 3, 2022	Action RecognitionRepresentation Learning	—Unverified	0
DeViSE: A Deep Visual-Semantic Embedding Model	Dec 1, 2013	modelObject	—Unverified	0
Fine-Grained Side Information Guided Dual-Prompts for Zero-Shot Skeleton Action Recognition	Apr 11, 2024	Action RecognitionAttribute	—Unverified	0
GAN for Vision, KG for Relation: a Two-stage Deep Network for Zero-shot Action Recognition	May 25, 2021	Action RecognitionClassification	—Unverified	0
Improving Zero-Shot Action Recognition using Human Instruction with Text Description	Jan 21, 2023	Action RecognitionSentence	—Unverified	0
InternVid: A Large-scale Video-Text Dataset for Multimodal Understanding and Generation	Jul 13, 2023	Action RecognitionContrastive Learning	—Unverified	0
Learning a Pose Lexicon for Semantic Action Recognition	Apr 1, 2016	Action RecognitionTemporal Action Localization	—Unverified	0
Learning Using Privileged Information for Zero-Shot Action Recognition	Jun 17, 2022	Action RecognitionHallucination	—Unverified	0
Semantic-guided Cross-Modal Prompt Learning for Skeleton-based Zero-shot Action Recognition	Jan 1, 2025	Action RecognitionComputational Efficiency	—Unverified	0
Skeleton based Zero Shot Action Recognition in Joint Pose-Language Semantic Space	Nov 26, 2019	Action RecognitionTemporal Action Localization	—Unverified	0
Synthetic Sample Selection for Generalized Zero-Shot Learning	Apr 6, 2023	feature selectionGeneralized Zero-Shot Learning	—Unverified	0
TARN: Temporal Attentive Relation Network for Few-Shot and Zero-Shot Action Recognition	Jul 21, 2019	Action RecognitionFew-Shot action recognition	—Unverified	0
Text-Enhanced Zero-Shot Action Recognition: A training-free approach	Aug 29, 2024	Action RecognitionTemporal Action Localization	—Unverified	0
The impact of Compositionality in Zero-shot Multi-label action recognition for Object-based tasks	May 14, 2024	Action RecognitionAction Recognition In Videos	—Unverified	0

Show:10 25 50

← PrevPage 1 of 2Next →

All datasets UCF101 HMDB51 Kinetics Olympics ActivityNet Charades THUMOS' 14

Benchmark Results

#	Model	Metric	Claimed	Verified	Status
1	OTI(ViT-L/14)	Top-1 Accuracy	92.8	—	Unverified
2	IMP-MoE-L	Top-1 Accuracy	91.5	—	Unverified
3	MOV (ViT-L/14)	Top-1 Accuracy	87.1	—	Unverified
4	VideoCoCa	Top-1 Accuracy	86.6	—	Unverified
5	BIKE	Top-1 Accuracy	86.6	—	Unverified
6	Text4Vis	Top-1 Accuracy	85.8	—	Unverified
7	TC-CLIP	Top-1 Accuracy	85.4	—	Unverified
8	EVA-CLIP-E/14+	Top-1 Accuracy	83.1	—	Unverified
9	MOV (ViT-B/16)	Top-1 Accuracy	82.6	—	Unverified
10	OST	Top-1 Accuracy	79.7	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	MOV (ViT-L/14)	Top-1 Accuracy	64.7	—	Unverified
2	OTI(ViT-L/14)	Top-1 Accuracy	64	—	Unverified
3	BIKE	Top-1 Accuracy	61.4	—	Unverified
4	MOV (ViT-B/16)	Top-1 Accuracy	60.8	—	Unverified
5	IMP-MoE-L	Top-1 Accuracy	59.1	—	Unverified
6	VideoCoCa	Top-1 Accuracy	58.7	—	Unverified
7	Text4Vis	Top-1 Accuracy	58.4	—	Unverified
8	TC-CLIP	Top-1 Accuracy	56	—	Unverified
9	OST	Top-1 Accuracy	55.9	—	Unverified
10	MAXI	Top-1 Accuracy	52.3	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	TC-CLIP	Top-1 Accuracy	78.1	—	Unverified
2	IMP-MoE-L	Top-1 Accuracy	76.8	—	Unverified
3	OST	Top-1 Accuracy	75.1	—	Unverified
4	MAXI	Top-1 Accuracy	71.6	—	Unverified
5	OTI（ViT-L/14）	Top-1 Accuracy	70.6	—	Unverified
6	VideoCoCa	Top-1 Accuracy	70.1	—	Unverified
7	Text4Vis	Top-1 Accuracy	68.9	—	Unverified
8	BIKE	Top-1 Accuracy	68.5	—	Unverified
9	X-CLIP	Top-1 Accuracy	65.2	—	Unverified
10	LanguageBind	Top-1 Accuracy	64.1	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	SPOT	Top-1 Accuracy	68.7	—	Unverified
2	CLASTER	Top-1 Accuracy	68.4	—	Unverified
3	ER-ZSAR	Top-1 Accuracy	60.2	—	Unverified
4	ZSECOC	Top-1 Accuracy	59.8	—	Unverified
5	TS-GCN	Top-1 Accuracy	56.5	—	Unverified
6	SJE(Atrribute)	Top-1 Accuracy	47.5	—	Unverified
7	MTE	Top-1 Accuracy	44.3	—	Unverified
8	ESZSL	Top-1 Accuracy	39.6	—	Unverified
9	SJE(Word Embedding)	Top-1 Accuracy	28.6	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	BIKE	Top-1 Accuracy	86.2	—	Unverified
2	Text4Vis	Top-1 Accuracy	84.6	—	Unverified
3	LoCATe-GAT	Top-1 Accuracy	73.8	—	Unverified
4	ResT	Top-1 Accuracy	32.5	—	Unverified
5	E2E	Top-1 Accuracy	26.6	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	MSQNet	mAP	35.59	—	Unverified
2	VideoCoCa	mAP	25.8	—	Unverified
3	MAXI	mAP	23.8	—	Unverified
4	CLIP-Hitchhiker (ViT-B/16, 32 frames)	mAP	21.1	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	MSQNet	Accuracy	75.33	—	Unverified