Video Generation

( Various Video Generation Tasks. Gif credit: MaGViT )

Papers

Recently Added Most Hyped Most Active Needs Verification Most Verified

Showing 851–900 of 1466 papers

Title	Date	Tasks	Status
Contextual Gesture: Co-Speech Gesture Video Generation through Context-aware Gesture Representation	Feb 11, 2025	Gesture GenerationVideo Generation	—Unverified
Contextual RNN-GANs for Abstract Reasoning Diagram Generation	Sep 29, 2016	Generative Adversarial NetworkVideo Generation	—Unverified
Continuously Controllable Facial Expression Editing in Talking Face Videos	Sep 17, 2022	Image-to-Image TranslationVideo Generation	—Unverified
Continuous-Time Video Generation via Learning Motion Dynamics with Neural ODE	Dec 21, 2021	Unconditional Video GenerationVideo Generation	—Unverified
Contrastive Video Textures	Jan 1, 2021	Contrastive LearningVideo Generation	—Unverified
Controllable Image-to-Video Translation: A Case Study on Facial Expression Generation	Aug 9, 2018	Facial expression generationImage-to-Image Translation	—Unverified
Controllable Longer Image Animation with Diffusion Models	May 27, 2024	Image Animationmotion prediction	—Unverified
Controllable Video Generation by Learning the Underlying Dynamical System with Neural ODE	Mar 9, 2023	Video Generation	—Unverified
Controllable Video Generation through Global and Local Motion Dynamics	Apr 13, 2022	Video Generation	—Unverified
Controllable Video Generation With Sparse Trajectories	Jun 1, 2018	Video GenerationVideo Prediction	—Unverified
Convergence of Diffusion Models Under the Manifold Hypothesis in High-Dimensions	Sep 27, 2024	DenoisingGaussian Processes	—Unverified
Copy Motion From One to Another: Fake Motion Video Generation	May 3, 2022	Video Generation	—Unverified
Co-Speech Gesture Video Generation with Implicit Motion-Audio Entanglement	Jan 1, 2025	Gesture GenerationMotion Generation	—Unverified
CPA: Camera-pose-awareness Diffusion Transformer for Video Generation	Dec 2, 2024	Text-to-Video GenerationVideo Generation	—Unverified
Cross-Modal Learning for Music-to-Music-Video Description Generation	Mar 14, 2025	Video DescriptionVideo Generation	—Unverified
Cross-View Exocentric to Egocentric Video Synthesis	Jul 7, 2021	Generative Adversarial NetworkVideo Generation	—Unverified
Ctrl-Adapter: An Efficient and Versatile Framework for Adapting Diverse Controls to Any Diffusion Model	Apr 15, 2024	GPUImage Generation	—Unverified
Ctrl-Crash: Controllable Diffusion for Realistic Car Crashes	May 30, 2025	counterfactualVideo Generation	—Unverified
Customize-A-Video: One-Shot Motion Customization of Text-to-Video Diffusion Models	Feb 22, 2024	Video Generation	—Unverified
NewMove: Customizing text-to-video models with novel motions	Dec 7, 2023	Text-to-Video GenerationVideo Generation	—Unverified
CustomVideo: Customizing Text-to-Video Generation with Multiple Subjects	Jan 18, 2024	ObjectText-to-Video Generation	—Unverified
CustomVideoX: 3D Reference Attention Driven Dynamic Adaptation for Zero-Shot Customized Video Diffusion Transformers	Feb 10, 2025	Image GenerationVideo Generation	—Unverified
CyberHost: Taming Audio-driven Avatar Diffusion Model with Region Codebook Attention	Sep 3, 2024	Human AnimationVideo Generation	—Unverified
Dance Any Beat: Blending Beats with Visuals in Dance Video Generation	May 15, 2024	Image to Video GenerationOptical Flow Estimation	—Unverified
DAPE: Dual-Stage Parameter-Efficient Fine-Tuning for Consistent Video Editing with Diffusion Models	May 11, 2025	parameter-efficient fine-tuningVideo Alignment	—Unverified
Decouple Content and Motion for Conditional Image-to-Video Generation	Nov 24, 2023	Image to Video GenerationVideo Generation	—Unverified
DeepHS-HDRVideo: Deep High Speed High Dynamic Range Video Reconstruction	Oct 10, 2022	Optical Flow EstimationVideo Frame Interpolation	—Unverified
DeepRhythm: Exposing DeepFakes with Attentional Visual Heartbeat Rhythms	Jun 13, 2020	DeepFake DetectionFace Swapping	—Unverified
DeepVerse: 4D Autoregressive Video Generation as a World Model	Jun 1, 2025	Video Generation	—Unverified
Deep Video Generation, Prediction and Completion of Human Action Sequences	Nov 23, 2017	Human action generationPrediction	—Unverified
Denoising Diffusion Probabilistic Models in Six Simple Steps	Feb 6, 2024	DenoisingVideo Generation	—Unverified
Denoising Reuse: Exploiting Inter-frame Motion Consistency for Efficient Video Latent Generation	Sep 19, 2024	DenoisingVideo Generation	—Unverified
Designing Parameter and Compute Efficient Diffusion Transformers using Distillation	Feb 20, 2025	Knowledge DistillationNVIDIA Jetson Orin Nano	—Unverified
DFVEdit: Conditional Delta Flow Vector for Zero-shot Video Editing	Jun 26, 2025	Video EditingVideo Generation	—Unverified
Dialogue Director: Bridging the Gap in Dialogue Visualization for Multimodal Storytelling	Dec 30, 2024	Retrieval-augmented GenerationStory Visualization	—Unverified
DialogueNeRF: Towards Realistic Avatar Face-to-Face Conversation Video Generation	Mar 15, 2022	NeRFTalking Head Generation	—Unverified
DiCoDe: Diffusion-Compressed Deep Tokens for Autoregressive Video Generation with Language Models	Dec 5, 2024	Temporal SequencesVideo Generation	—Unverified
DiffPerformer: Iterative Learning of Consistent Latent Guidance for Diffusion-based Human Video Generation	Jan 1, 2024	Video Generation	—Unverified
DiffTED: One-shot Audio-driven TED Talk Video Generation with Diffusion-based Co-speech Gestures	Sep 11, 2024	DiversityTalking Head Generation	—Unverified
Diffused Heads: Diffusion Models Beat GANs on Talking-Face Generation	Jan 6, 2023	Face GenerationTalking Face Generation	—Unverified
Diffusion Adversarial Post-Training for One-Step Video Generation	Jan 14, 2025	Video Generation	—Unverified
Diffusion-based Realistic Listening Head Generation via Hybrid Motion Modeling	Jan 1, 2025	Motion GenerationVideo Generation	—Unverified
Diffusion Models for Robotic Manipulation: A Survey	Apr 11, 2025	Data AugmentationImage Augmentation	—Unverified
Diffusion Transformer Captures Spatial-Temporal Dependencies: A Theory for Gaussian Process Data	Jul 23, 2024	Video Generation	—Unverified
DimensionX: Create Any 3D and 4D Scenes from a Single Image with Controllable Video Diffusion	Nov 7, 2024	3D GenerationDenoising	—Unverified
Direct-a-Video: Customized Video Generation with User-Directed Camera Movement and Object Motion	Feb 5, 2024	ObjectVideo Generation	—Unverified
DirectorLLM for Human-Centric Video Generation	Dec 19, 2024	Language ModelingLanguage Modelling	—Unverified
DisenStudio: Customized Multi-subject Text-to-Video Generation with Disentangled Spatial Control	May 21, 2024	AttributeMotion Generation	—Unverified
Disentangled Recurrent Wasserstein Autoencoder	Jan 19, 2021	DisentanglementRepresentation Learning	—Unverified
Disentangling Foreground and Background Motion for Enhanced Realism in Human Video Generation	May 26, 2024	Video Generation	—Unverified

Show:10 25 50

← PrevPage 18 of 30Next →

All datasets UCF-101 BAIR Robot Pushing Sky Time-lapse UCF-101 16 frames, 64x64, Unconditional UCF-101 16 frames, Unconditional, Single GPU LAION-400M Taichi UCF-101 16 frames, 128x128, Unconditional Kinetics-600 12 frames, 64x64 How2Sign Kinetics-600 12 frames, 128x128 Kinetics-600 48 frames, 64x64

Benchmark Results

#	Model	Metric	Claimed	Verified	Status
1	MCVD	FVD16	2,460	—	Unverified
2	VDM	FVD16	1,396	—	Unverified
3	TGAN-v2 (128x128)	FVD16	1,209	—	Unverified
4	MCVD (64x64)	FVD16	1,143	—	Unverified
5	MoCoGAN-HD (256x256, unconditional)	FVD16	700	—	Unverified
6	MagicVideo (256x256, text-conditional)	FVD16	699	—	Unverified
7	TATS (256x256)	FVD16	635	—	Unverified
8	FIFO-Diffusion	FVD128	596.64	—	Unverified
9	DIGAN (128x128, unconditional)	FVD16	577	—	Unverified
10	LVDM (256x256, unconditional)	FVD16	552	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	MoCoGAN	FVD score	503	—	Unverified
2	Baseline (from LVT)	FVD score	320.9	—	Unverified
3	SVG-FP (from FVD)	FVD score	315.5	—	Unverified
4	CDNA (from FVD)	FVD score	296.5	—	Unverified
5	SV2P (from FVD)	FVD score	262.5	—	Unverified
6	SVG-LP (from vRNN)	FVD score	256.62	—	Unverified
7	WAM	FVD score	159.6	—	Unverified
8	VRNN 1L	FVD score	149.22	—	Unverified
9	SAVP (from vRNN)	FVD score	143.43	—	Unverified
10	Hier-VRNN	FVD score	143.4	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	MoCoGAN-HD (128x128)	FVD 16	183.6	—	Unverified
2	TATS (128x128)	FVD 16	132.6	—	Unverified
3	Long-video GAN (256x256)	FVD 16	116.5	—	Unverified
4	DIGAN (128x128)	FVD 16	114.6	—	Unverified
5	Long-video GAN (128x128)	FVD 16	107.5	—	Unverified
6	LVDM (256x256)	FVD 16	95.2	—	Unverified
7	DDMI	FVD 16	66.25	—	Unverified
8	Latte + LeanVAE	FVD 16	49.59	—	Unverified
9	StyleSV (256x256)	FVD 16	49	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	Video Diffusion Model	Inception Score	57	—	Unverified
2	TGAN-ODE	Inception Score	15.2	—	Unverified
3	TGAN-F	Inception Score	13.62	—	Unverified
4	MoCoGAN	Inception Score	12.42	—	Unverified
5	MoCoGAN-MDP	Inception Score	11.86	—	Unverified
6	TGAN-SVC	Inception Score	11.85	—	Unverified
7	VGAN	Inception Score	8.18	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	TGAN-F	Inception Score	22.91	—	Unverified
2	TGANv2	Inception Score	21.45	—	Unverified
3	TGANv2-ODE	Inception Score	21.02	—	Unverified
4	MoCoGAN	Inception Score	12.42	—	Unverified
5	MoCoGAN-MDP	Inception Score	11.86	—	Unverified
6	TGAN-SVC	Inception Score	11.85	—	Unverified
7	VGAN	Inception Score	8.18	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	Imagen original (constant=6)	CLIP R-Precision	92.12	—	Unverified
2	Imagen fully distilled (oscillate (15,1))	CLIP R-Precision	90.97	—	Unverified
3	Imagen distilled (constant=6)	CLIP R-Precision	90.88	—	Unverified
4	Imagen original (oscillate(15,1))	CLIP R-Precision	89.91	—	Unverified
5	Imagen fully distilled (constant=6)	CLIP R-Precision	89.68	—	Unverified
6	Imagen distilled (oscillate (15,1))	CLIP R-Precision	88.78	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	DIGAN (256x256)	FVD16	156.7	—	Unverified
2	MoCoGAN-HD (128x128)	FVD16	144.7	—	Unverified
3	DIGAN (128x128)	FVD16	128.1	—	Unverified
4	LVDM (256x256)	FVD16	99	—	Unverified
5	TATS (128x128)	FVD16	94.6	—	Unverified
6	StyleSV (256x256)	FVD16	82.6	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	TGANv2 (2020)	Inception Score	28.87	—	Unverified
2	DVD-GAN	Inception Score	27.38	—	Unverified
3	VideoGPT	Inception Score	24.69	—	Unverified
4	TGANv2	Inception Score	24.34	—	Unverified
5	TGAN-F	Inception Score	22.91	—	Unverified
6	TGANv2-ODE	Inception Score	21.02	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	DVD-GAN	FVD	31.1	—	Unverified
2	MAGVIT	FVD	9.9	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	INR-V	FVD16	144	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	DVD-GAN	FID	2.16	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	DVD-GAN	FID	12.92	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	DiT-XL/2 + CVAE-FT-SE	FID	8.59	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	VideoAssembler (Zero-Shot, 256x256, class-conditional)	FVD16	252	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	PG-SWGAN-3D	FID	404.1	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	StyleSV	FVD16	207.2	—	Unverified