Video Generation

( Various Video Generation Tasks. Gif credit: MaGViT )

Papers

Recently Added Most Hyped Most Active Needs Verification Most Verified

Showing 1051–1075 of 1466 papers

Title	Date	Tasks	Status
GSV3D: Gaussian Splatting-based Geometric Distillation with Stable Video Diffusion for Single-Image 3D Object Generation	Mar 8, 2025	3D GenerationDecoder	—Unverified
GVDIFF: Grounded Text-to-Video Generation with Diffusion Models	Jul 2, 2024	Text-to-Video GenerationVideo Generation	—Unverified
H3AE: High Compression, High Speed, and High Quality AutoEncoder for Video Diffusion Models	Apr 14, 2025	DenoisingText-to-Video Generation	—Unverified
HAIC: Improving Human Action Understanding and Generation with Better Captions for Multi-modal Large Language Models	Feb 28, 2025	Action UnderstandingText-to-Video Generation	—Unverified
Hamiltonian GAN	Aug 22, 2023	Inductive BiasVideo Generation	—Unverified
Hardware-Friendly Static Quantization Method for Video Diffusion Transformers	Feb 20, 2025	QuantizationVideo Generation	—Unverified
HARIVO: Harnessing Text-to-Image Models for Video Generation	Oct 10, 2024	DiversityVideo Generation	—Unverified
Harness Local Rewards for Global Benefits: Effective Text-to-Video Generation Alignment with Patch-level Reward Models	Feb 4, 2025	Text-to-Video GenerationVideo Generation	—Unverified
HeteroLLM: Accelerating Large Language Model Inference on Mobile SoCs platform with Heterogeneous AI Accelerators	Jan 11, 2025	Language ModelingLanguage Modelling	—Unverified
Hierarchical Patch Diffusion Models for High-Resolution Video Generation	Jun 12, 2024	Video Generation	—Unverified
Hierarchical Semantic Perceptual Listener Head Video Generation: A High-performance Pipeline	Jul 19, 2023	DecoderTalking Head Generation	—Unverified
Hierarchical Spatio-temporal Decoupling for Text-to-Video Generation	Dec 7, 2023	Spatial ReasoningText-to-Video Generation	—Unverified
Hierarchical Video Generation for Complex Data	Jun 4, 2021	Video Generation	—Unverified
Hierarchical Video Prediction Using Relational Layouts for Human-Object Interactions	Jun 19, 2021	Human-Object Interaction DetectionObject	—Unverified
HieraSurg: Hierarchy-Aware Diffusion Model for Surgical Video Generation	Jun 26, 2025	Panoptic SegmentationSegmentation	—Unverified
High-Fidelity and Freely Controllable Talking Head Video Generation	Apr 20, 2023	Face ModelTalking Head Generation	—Unverified
High-fidelity and Lip-synced Talking Face Synthesis via Landmark-based Diffusion Model	Aug 10, 2024	Face GenerationTalking Face Generation	—Unverified
HiTVideo: Hierarchical Tokenizers for Enhancing Text-to-Video Generation with Autoregressive Large Language Models	Mar 14, 2025	Text-to-Video GenerationVideo Generation	—Unverified
HOIGen-1M: A Large-scale Dataset for Human-Object Interaction Video Generation	Mar 31, 2025	HallucinationHuman-Object Interaction Detection	—Unverified
HOI-Swap: Swapping Objects in Videos with Hand-Object Interaction Awareness	Jun 11, 2024	ObjectVideo Editing	—Unverified
How Do the Hearts of Deep Fakes Beat? Deep Fake Source Detection via Interpreting Residuals with Biological Signals	Aug 26, 2020	Video Generation	—Unverified
How Far is Video Generation from World Model: A Physical Law Perspective	Nov 4, 2024	Video Generation	—Unverified
How I Warped Your Noise: a Temporally-Correlated Noise Prior for Diffusion Models	Apr 3, 2025	Video EditingVideo Generation	—Unverified
How Much To Guide: Revisiting Adaptive Guidance in Classifier-Free Guidance Text-to-Vision Diffusion Models	Jun 10, 2025	DenoisingVideo Generation	—Unverified
HRVGAN: High Resolution Video Generation using Spatio-Temporal GAN	Aug 17, 2020	Video GenerationVocal Bursts Intensity Prediction	—Unverified

Show:10 25 50

← PrevPage 43 of 59Next →

All datasets UCF-101 BAIR Robot Pushing Sky Time-lapse UCF-101 16 frames, 64x64, Unconditional UCF-101 16 frames, Unconditional, Single GPU LAION-400M Taichi UCF-101 16 frames, 128x128, Unconditional Kinetics-600 12 frames, 64x64 How2Sign Kinetics-600 12 frames, 128x128 Kinetics-600 48 frames, 64x64

Benchmark Results

#	Model	Metric	Claimed	Verified	Status
1	MCVD	FVD16	2,460	—	Unverified
2	VDM	FVD16	1,396	—	Unverified
3	TGAN-v2 (128x128)	FVD16	1,209	—	Unverified
4	MCVD (64x64)	FVD16	1,143	—	Unverified
5	MoCoGAN-HD (256x256, unconditional)	FVD16	700	—	Unverified
6	MagicVideo (256x256, text-conditional)	FVD16	699	—	Unverified
7	TATS (256x256)	FVD16	635	—	Unverified
8	FIFO-Diffusion	FVD128	596.64	—	Unverified
9	DIGAN (128x128, unconditional)	FVD16	577	—	Unverified
10	LVDM (256x256, unconditional)	FVD16	552	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	MoCoGAN	FVD score	503	—	Unverified
2	Baseline (from LVT)	FVD score	320.9	—	Unverified
3	SVG-FP (from FVD)	FVD score	315.5	—	Unverified
4	CDNA (from FVD)	FVD score	296.5	—	Unverified
5	SV2P (from FVD)	FVD score	262.5	—	Unverified
6	SVG-LP (from vRNN)	FVD score	256.62	—	Unverified
7	WAM	FVD score	159.6	—	Unverified
8	VRNN 1L	FVD score	149.22	—	Unverified
9	SAVP (from vRNN)	FVD score	143.43	—	Unverified
10	Hier-VRNN	FVD score	143.4	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	MoCoGAN-HD (128x128)	FVD 16	183.6	—	Unverified
2	TATS (128x128)	FVD 16	132.6	—	Unverified
3	Long-video GAN (256x256)	FVD 16	116.5	—	Unverified
4	DIGAN (128x128)	FVD 16	114.6	—	Unverified
5	Long-video GAN (128x128)	FVD 16	107.5	—	Unverified
6	LVDM (256x256)	FVD 16	95.2	—	Unverified
7	DDMI	FVD 16	66.25	—	Unverified
8	Latte + LeanVAE	FVD 16	49.59	—	Unverified
9	StyleSV (256x256)	FVD 16	49	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	Video Diffusion Model	Inception Score	57	—	Unverified
2	TGAN-ODE	Inception Score	15.2	—	Unverified
3	TGAN-F	Inception Score	13.62	—	Unverified
4	MoCoGAN	Inception Score	12.42	—	Unverified
5	MoCoGAN-MDP	Inception Score	11.86	—	Unverified
6	TGAN-SVC	Inception Score	11.85	—	Unverified
7	VGAN	Inception Score	8.18	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	TGAN-F	Inception Score	22.91	—	Unverified
2	TGANv2	Inception Score	21.45	—	Unverified
3	TGANv2-ODE	Inception Score	21.02	—	Unverified
4	MoCoGAN	Inception Score	12.42	—	Unverified
5	MoCoGAN-MDP	Inception Score	11.86	—	Unverified
6	TGAN-SVC	Inception Score	11.85	—	Unverified
7	VGAN	Inception Score	8.18	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	Imagen original (constant=6)	CLIP R-Precision	92.12	—	Unverified
2	Imagen fully distilled (oscillate (15,1))	CLIP R-Precision	90.97	—	Unverified
3	Imagen distilled (constant=6)	CLIP R-Precision	90.88	—	Unverified
4	Imagen original (oscillate(15,1))	CLIP R-Precision	89.91	—	Unverified
5	Imagen fully distilled (constant=6)	CLIP R-Precision	89.68	—	Unverified
6	Imagen distilled (oscillate (15,1))	CLIP R-Precision	88.78	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	DIGAN (256x256)	FVD16	156.7	—	Unverified
2	MoCoGAN-HD (128x128)	FVD16	144.7	—	Unverified
3	DIGAN (128x128)	FVD16	128.1	—	Unverified
4	LVDM (256x256)	FVD16	99	—	Unverified
5	TATS (128x128)	FVD16	94.6	—	Unverified
6	StyleSV (256x256)	FVD16	82.6	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	TGANv2 (2020)	Inception Score	28.87	—	Unverified
2	DVD-GAN	Inception Score	27.38	—	Unverified
3	VideoGPT	Inception Score	24.69	—	Unverified
4	TGANv2	Inception Score	24.34	—	Unverified
5	TGAN-F	Inception Score	22.91	—	Unverified
6	TGANv2-ODE	Inception Score	21.02	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	DVD-GAN	FVD	31.1	—	Unverified
2	MAGVIT	FVD	9.9	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	INR-V	FVD16	144	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	DVD-GAN	FID	2.16	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	DVD-GAN	FID	12.92	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	DiT-XL/2 + CVAE-FT-SE	FID	8.59	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	VideoAssembler (Zero-Shot, 256x256, class-conditional)	FVD16	252	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	PG-SWGAN-3D	FID	404.1	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	StyleSV	FVD16	207.2	—	Unverified