Video Generation

( Various Video Generation Tasks. Gif credit: MaGViT )

Papers

Recently Added Most Hyped Most Active Needs Verification Most Verified

Showing 1301–1350 of 1466 papers

Title	Date	Tasks	Status
VidStyleODE: Disentangled Video Editing via StyleGAN and NeuralODEs	Apr 12, 2023	Image AnimationVideo Editing	—Unverified
Vidu: a Highly Consistent, Dynamic and Skilled Text-to-Video Generator with Diffusion Models	May 7, 2024	Video GenerationVideo Prediction	—Unverified
VIMI: Grounding Video Generation through Multi-modal Instruction	Jul 8, 2024	Text-to-Video GenerationVideo Generation	—Unverified
VISAGE: Video Synthesis using Action Graphs for Surgery	Oct 23, 2024	Video Generation	—Unverified
Visual Representation Learning with Stochastic Frame Prediction	Jun 11, 2024	DecoderPose Tracking	—Unverified
VITON-DiT: Learning In-the-Wild Video Try-On from Human Dance Videos via Diffusion Transformers	May 28, 2024	DenoisingVideo Generation	—Unverified
Vivid-ZOO: Multi-View Video Generation with Diffusion Model	Jun 12, 2024	Video Generation	—Unverified
VLOGGER: Multimodal Diffusion for Embodied Avatar Synthesis	Mar 13, 2024	Face DetectionVideo Editing	—Unverified
Adversarial Framework for Unsupervised Learning of Motion Dynamics in Videos	Mar 24, 2018	Motion EstimationPrediction	—Unverified
VQ4DiT: Efficient Post-Training Vector Quantization for Diffusion Transformers	Aug 30, 2024	GPUImage Generation	—Unverified
We'll Fix it in Post: Improving Text-to-Video Generation with Neuro-Symbolic Feedback	Apr 24, 2025	Text-to-Video GenerationVideo Generation	—Unverified
WHALE: Towards Generalizable and Scalable World Models for Embodied Decision-making	Nov 8, 2024	Decision MakingVideo Generation	—Unverified
What Matters in Detecting AI-Generated Videos like Sora?	Jun 27, 2024	Optical Flow EstimationVideo Generation	—Unverified
What You See Is What Matters: A Novel Visual and Physics-Based Metric for Evaluating Video Generation Quality	Nov 20, 2024	Video Generation	—Unverified
When Video Coding Meets Multimodal Large Language Models: A Unified Paradigm for Video Coding	Aug 15, 2024	Video CompressionVideo Generation	—Unverified
WISA: World Simulator Assistant for Physics-Aware Text-to-Video Generation	Mar 11, 2025	Text-to-Video GenerationVideo Generation	—Unverified
WonderPlay: Dynamic 3D Scene Generation from a Single Image and Actions	May 23, 2025	SandScene Generation	—Unverified
World-consistent Video Diffusion with Explicit 3D Modeling	Dec 2, 2024	3D GenerationImage Generation	—Unverified
WorldDreamer: Towards General World Models for Video Generation via Predicting Masked Tokens	Jan 18, 2024	Video EditingVideo Generation	—Unverified
WorldEval: World Model as Real-World Robot Policies Evaluator	May 25, 2025	Robot ManipulationVideo Generation	—Unverified
WorldGPT: A Sora-Inspired Video AI Agent as Rich World Models from Text and Image Inputs	Mar 10, 2024	AI AgentVideo Generation	—Unverified
World Model-Based End-to-End Scene Generation for Accident Anticipation in Autonomous Driving	Jul 17, 2025	Accident AnticipationAutonomous Driving	—Unverified
WorldPrompter: Traversable Text-to-Scene Generation	Apr 2, 2025	3D GenerationScene Generation	—Unverified
WorldScore: A Unified Evaluation Benchmark for World Generation	Apr 1, 2025	Scene GenerationVideo Generation	—Unverified
WorldSimBench: Towards Video Generation Models as World Simulators	Oct 23, 2024	Autonomous DrivingRobot Manipulation	—Unverified
X-Dancer: Expressive Music to Human Dance Video Generation	Feb 24, 2025	Image AnimationVideo Generation	—Unverified
xGen-VideoSyn-1: High-fidelity Text-to-Video Synthesis with Compressed Representations	Aug 22, 2024	Dense CaptioningMotion Estimation	—Unverified
Xp-GAN: Unsupervised Multi-object Controllable Video Generation	Nov 19, 2021	ObjectVideo Generation	—Unverified
Zero4D: Training-Free 4D Video Generation From Single Video Using Off-the-Shelf Video Diffusion Model	Mar 28, 2025	Video Generation	—Unverified
ZeroHSI: Zero-Shot 4D Human-Scene Interaction by Video Generation	Dec 24, 2024	Human-Object Interaction DetectionVideo Generation	—Unverified
Generating Videos of Zero-Shot Compositions of Actions and Objects	Dec 5, 2019	Human-Object Interaction DetectionObject	—Unverified
Zero-Shot Human-Object Interaction Synthesis with Multimodal Priors	Mar 25, 2025	DiversityHuman-Object Interaction Detection	—Unverified
Zero-Shot Video Editing through Adaptive Sliding Score Distillation	Jun 7, 2024	DenoisingText-to-Video Generation	—Unverified
0/1 Deep Neural Networks via Block Coordinate Descent	Jun 19, 2022	10-shot image generation	—Unverified
Towards A Better Metric for Text-to-Video Generation	Jan 15, 2024	Mixture-of-ExpertsText-to-Video Generation	—Unverified
Towards Chunk-Wise Generation for Long Videos	Nov 27, 2024	DenoisingGPU	—Unverified
Towards Generative Latent Variable Models for Speech	Sep 29, 2021	Image GenerationVideo Generation	—Unverified
Towards motion from video diffusion models	Nov 19, 2024	Video Generation	—Unverified
Towards Multi-Task Multi-Modal Models: A Video Generative Perspective	May 26, 2024	Language ModelingLanguage Modelling	—Unverified
Towards Physically Plausible Video Generation via VLM Planning	Mar 30, 2025	Image to Video GenerationVideo Generation	—Unverified
Towards Physical Understanding in Video Generation: A 3D Point Regularization Approach	Feb 5, 2025	Video Generation	—Unverified
Track4Gen: Teaching Video Diffusion Models to Track Points Improves Video Generation	Dec 8, 2024	Point TrackingVideo Generation	—Unverified
TrackGo: A Flexible and Efficient Method for Controllable Video Generation	Aug 21, 2024	Video Generation	—Unverified
Training-free Camera Control for Video Generation	Jun 14, 2024	Data AugmentationVideo Generation	—Unverified
Training-free Diffusion Acceleration with Bottleneck Sampling	Mar 24, 2025	DenoisingImage Generation	—Unverified
Training-free Guidance in Text-to-Video Generation via Multimodal Planning and Structured Noise Initialization	Apr 11, 2025	DenoisingObject	—Unverified
Decoupled Video Generation with Chain of Training-free Diffusion Model Experts	Aug 24, 2024	DenoisingVideo Generation	—Unverified
Training-Free Motion-Guided Video Generation with Enhanced Temporal Consistency Using Motion Consistency Loss	Jan 13, 2025	Feature CorrelationVideo Generation	—Unverified
Trajectory Attention for Fine-grained Video Motion Control	Nov 28, 2024	Inductive BiasVideo Editing	—Unverified
TransAnimate: Taming Layer Diffusion to Generate RGBA Video	Mar 23, 2025	Image GenerationVideo Generation	—Unverified

Show:10 25 50

← PrevPage 27 of 30Next →

All datasets UCF-101 BAIR Robot Pushing Sky Time-lapse UCF-101 16 frames, 64x64, Unconditional UCF-101 16 frames, Unconditional, Single GPU LAION-400M Taichi UCF-101 16 frames, 128x128, Unconditional Kinetics-600 12 frames, 64x64 How2Sign Kinetics-600 12 frames, 128x128 Kinetics-600 48 frames, 64x64

Benchmark Results

#	Model	Metric	Claimed	Verified	Status
1	MCVD	FVD16	2,460	—	Unverified
2	VDM	FVD16	1,396	—	Unverified
3	TGAN-v2 (128x128)	FVD16	1,209	—	Unverified
4	MCVD (64x64)	FVD16	1,143	—	Unverified
5	MoCoGAN-HD (256x256, unconditional)	FVD16	700	—	Unverified
6	MagicVideo (256x256, text-conditional)	FVD16	699	—	Unverified
7	TATS (256x256)	FVD16	635	—	Unverified
8	FIFO-Diffusion	FVD128	596.64	—	Unverified
9	DIGAN (128x128, unconditional)	FVD16	577	—	Unverified
10	LVDM (256x256, unconditional)	FVD16	552	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	MoCoGAN	FVD score	503	—	Unverified
2	Baseline (from LVT)	FVD score	320.9	—	Unverified
3	SVG-FP (from FVD)	FVD score	315.5	—	Unverified
4	CDNA (from FVD)	FVD score	296.5	—	Unverified
5	SV2P (from FVD)	FVD score	262.5	—	Unverified
6	SVG-LP (from vRNN)	FVD score	256.62	—	Unverified
7	WAM	FVD score	159.6	—	Unverified
8	VRNN 1L	FVD score	149.22	—	Unverified
9	SAVP (from vRNN)	FVD score	143.43	—	Unverified
10	Hier-VRNN	FVD score	143.4	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	MoCoGAN-HD (128x128)	FVD 16	183.6	—	Unverified
2	TATS (128x128)	FVD 16	132.6	—	Unverified
3	Long-video GAN (256x256)	FVD 16	116.5	—	Unverified
4	DIGAN (128x128)	FVD 16	114.6	—	Unverified
5	Long-video GAN (128x128)	FVD 16	107.5	—	Unverified
6	LVDM (256x256)	FVD 16	95.2	—	Unverified
7	DDMI	FVD 16	66.25	—	Unverified
8	Latte + LeanVAE	FVD 16	49.59	—	Unverified
9	StyleSV (256x256)	FVD 16	49	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	Video Diffusion Model	Inception Score	57	—	Unverified
2	TGAN-ODE	Inception Score	15.2	—	Unverified
3	TGAN-F	Inception Score	13.62	—	Unverified
4	MoCoGAN	Inception Score	12.42	—	Unverified
5	MoCoGAN-MDP	Inception Score	11.86	—	Unverified
6	TGAN-SVC	Inception Score	11.85	—	Unverified
7	VGAN	Inception Score	8.18	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	TGAN-F	Inception Score	22.91	—	Unverified
2	TGANv2	Inception Score	21.45	—	Unverified
3	TGANv2-ODE	Inception Score	21.02	—	Unverified
4	MoCoGAN	Inception Score	12.42	—	Unverified
5	MoCoGAN-MDP	Inception Score	11.86	—	Unverified
6	TGAN-SVC	Inception Score	11.85	—	Unverified
7	VGAN	Inception Score	8.18	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	Imagen original (constant=6)	CLIP R-Precision	92.12	—	Unverified
2	Imagen fully distilled (oscillate (15,1))	CLIP R-Precision	90.97	—	Unverified
3	Imagen distilled (constant=6)	CLIP R-Precision	90.88	—	Unverified
4	Imagen original (oscillate(15,1))	CLIP R-Precision	89.91	—	Unverified
5	Imagen fully distilled (constant=6)	CLIP R-Precision	89.68	—	Unverified
6	Imagen distilled (oscillate (15,1))	CLIP R-Precision	88.78	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	DIGAN (256x256)	FVD16	156.7	—	Unverified
2	MoCoGAN-HD (128x128)	FVD16	144.7	—	Unverified
3	DIGAN (128x128)	FVD16	128.1	—	Unverified
4	LVDM (256x256)	FVD16	99	—	Unverified
5	TATS (128x128)	FVD16	94.6	—	Unverified
6	StyleSV (256x256)	FVD16	82.6	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	TGANv2 (2020)	Inception Score	28.87	—	Unverified
2	DVD-GAN	Inception Score	27.38	—	Unverified
3	VideoGPT	Inception Score	24.69	—	Unverified
4	TGANv2	Inception Score	24.34	—	Unverified
5	TGAN-F	Inception Score	22.91	—	Unverified
6	TGANv2-ODE	Inception Score	21.02	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	DVD-GAN	FVD	31.1	—	Unverified
2	MAGVIT	FVD	9.9	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	INR-V	FVD16	144	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	DVD-GAN	FID	2.16	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	DVD-GAN	FID	12.92	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	DiT-XL/2 + CVAE-FT-SE	FID	8.59	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	VideoAssembler (Zero-Shot, 256x256, class-conditional)	FVD16	252	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	PG-SWGAN-3D	FID	404.1	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	StyleSV	FVD16	207.2	—	Unverified