Video Generation

( Various Video Generation Tasks. Gif credit: MaGViT )

Papers

Recently Added Most Hyped Most Active Needs Verification Most Verified

Showing 551–600 of 1466 papers

Title	Date	Tasks	Status
CustomVideoX: 3D Reference Attention Driven Dynamic Adaptation for Zero-Shot Customized Video Diffusion Transformers	Feb 10, 2025	Image GenerationVideo Generation	—Unverified
Anchored Diffusion for Video Face Reenactment	Jul 21, 2024	Face ReenactmentVideo Generation	—Unverified
CustomVideo: Customizing Text-to-Video Generation with Multiple Subjects	Jan 18, 2024	ObjectText-to-Video Generation	—Unverified
Free^2Guide: Gradient-Free Path Integral Control for Enhancing Text-to-Video Generation with Large Vision-Language Models	Nov 26, 2024	Reinforcement Learning (RL)Text-to-Video Generation	—Unverified
Automated 3D Physical Simulation of Open-world Scene with Gaussian Splatting	Nov 19, 2024	3D GenerationGPU	—Unverified
NewMove: Customizing text-to-video models with novel motions	Dec 7, 2023	Text-to-Video GenerationVideo Generation	—Unverified
Framer: Interactive Frame Interpolation	Oct 24, 2024	Image MorphingVideo Generation	—Unverified
Customize-A-Video: One-Shot Motion Customization of Text-to-Video Diffusion Models	Feb 22, 2024	Video Generation	—Unverified
Frame by Familiar Frame: Understanding Replication in Video Diffusion Models	Mar 28, 2024	Image GenerationVideo Generation	—Unverified
AnchorCrafter: Animate CyberAnchors Saling Your Products via Human-Object Interacting Video Generation	Nov 26, 2024	Human-Object Interaction DetectionObject	—Unverified
3DTrajMaster: Mastering 3D Trajectory for Multi-Entity Motion in Video Generation	Dec 10, 2024	Video Generation	—Unverified
FrameBridge: Improving Image-to-Video Generation with Bridge Models	Oct 20, 2024	Image AnimationImage to Video Generation	—Unverified
FPSAttention: Training-Aware FP8 and Sparsity Co-Design for Fast Video Diffusion	Jun 5, 2025	DenoisingQuantization	—Unverified
Force Prompting: Video Generation Models Can Learn and Generalize Physics-based Control Signals	May 26, 2025	DiversityVideo Generation	—Unverified
Follow-Your-Pose v2: Multiple-Condition Guided Character Image Animation for Stable Pose Control	Jun 5, 2024	Image AnimationVideo Generation	—Unverified
AutoLV: Automatic Lecture Video Generator	Sep 19, 2022	Speech SynthesisTalking Head Generation	—Unverified
Follow-Your-MultiPose: Tuning-Free Multi-Character Text-to-Video Generation via Pose Guidance	Dec 21, 2024	Text-to-Video GenerationVideo Generation	—Unverified
Ctrl-Crash: Controllable Diffusion for Realistic Car Crashes	May 30, 2025	counterfactualVideo Generation	—Unverified
Follow-Your-Creation: Empowering 4D Creation through Video Inpainting	Jun 5, 2025	Video GenerationVideo Inpainting	—Unverified
Ctrl-Adapter: An Efficient and Versatile Framework for Adapting Diverse Controls to Any Diffusion Model	Apr 15, 2024	GPUImage Generation	—Unverified
Autoencoding Video Latents for Adversarial Video Generation	Jan 18, 2022	Image GenerationVideo Generation	—Unverified
FluidNexus: 3D Fluid Reconstruction and Prediction from a Single Video	Mar 6, 2025	Future predictionNovel View Synthesis	—Unverified
FlowZero: Zero-Shot Text-to-Video Synthesis with LLM-Driven Dynamic Scene Syntax	Nov 27, 2023	Video Generation	—Unverified
Cross-View Exocentric to Egocentric Video Synthesis	Jul 7, 2021	Generative Adversarial NetworkVideo Generation	—Unverified
FloVD: Optical Flow Meets Video Diffusion Model for Enhanced Camera-Controlled Video Synthesis	Feb 12, 2025	Motion SynthesisOptical Flow Estimation	—Unverified
FLOAT: Generative Motion Latent Flow Matching for Audio-driven Talking Portrait	Dec 2, 2024	Image AnimationVideo Generation	—Unverified
Cross-Modal Learning for Music-to-Music-Video Description Generation	Mar 14, 2025	Video DescriptionVideo Generation	—Unverified
FLIP: Flow-Centric Generative Planning as General-Purpose Manipulation World Model	Dec 11, 2024	Representation LearningVideo Generation	—Unverified
FlexLip: A Controllable Text-to-Lip System	Jun 7, 2022	Audio Generationtext-to-speech	—Unverified
Fleximo: Towards Flexible Text-to-Human Motion Video Generation	Nov 29, 2024	Image to Video GenerationLarge Language Model	—Unverified
CPA: Camera-pose-awareness Diffusion Transformer for Video Generation	Dec 2, 2024	Text-to-Video GenerationVideo Generation	—Unverified
Audio-Visual Speech Representation Expert for Enhanced Talking Face Video Generation and Evaluation	May 7, 2024	Face GenerationTalking Face Generation	—Unverified
Action2Dialogue: Generating Character-Centric Narratives from Scene-Level Prompts	May 22, 2025	Dialogue GenerationLarge Language Model	—Unverified
InfinityDrive: Breaking Time Limits in Driving World Models	Dec 2, 2024	Autonomous DrivingDiversity	—Unverified
Instructional Video Generation	Dec 5, 2024	Video Generation	—Unverified
FlexiDiT: Your Diffusion Transformer Can Easily Generate High-Quality Samples with Less Compute	Feb 27, 2025	DenoisingImage Generation	—Unverified
Co-Speech Gesture Video Generation with Implicit Motion-Audio Entanglement	Jan 1, 2025	Gesture GenerationMotion Generation	—Unverified
FlexCache: Flexible Approximate Cache System for Video Diffusion	Dec 18, 2024	Video Generation	—Unverified
Audio-Sync Video Generation with Multi-Stream Temporal Control	Jun 9, 2025	Audio-Visual SynchronizationVideo Alignment	—Unverified
FlashVideo: A Framework for Swift Inference in Text-to-Video Generation	Dec 30, 2023	Text-to-Video GenerationVideo Generation	—Unverified
Fisher Flow Matching for Generative Modeling over Discrete Data	May 23, 2024	Language ModelingLanguage Modelling	—Unverified
Copy Motion From One to Another: Fake Motion Video Generation	May 3, 2022	Video Generation	—Unverified
Audio-Driven Talking Face Video Generation with Dynamic Convolution Kernels	Jan 16, 2022	Video Generation	—Unverified
FingER: Content Aware Fine-grained Evaluation with Reasoning for AI-Generated Videos	Apr 14, 2025	Video Generation	—Unverified
FinePhys: Fine-grained Human Action Generation by Explicitly Incorporating Physical Laws for Effective Skeletal Guidance	May 19, 2025	Action GenerationHuman action generation	—Unverified
Fine-grained Controllable Video Generation via Object Appearance and Context	Dec 5, 2023	Text-to-Video GenerationVideo Generation	—Unverified
Convergence of Diffusion Models Under the Manifold Hypothesis in High-Dimensions	Sep 27, 2024	DenoisingGaussian Processes	—Unverified
Fine-gained Zero-shot Video Sampling	Jul 31, 2024	Image GenerationVideo Editing	—Unverified
Controllable Video Generation With Sparse Trajectories	Jun 1, 2018	Video GenerationVideo Prediction	—Unverified
Audio-driven Gesture Generation via Deviation Feature in the Latent Space	Mar 27, 2025	Gesture GenerationVideo Generation	—Unverified

Show:10 25 50

← PrevPage 12 of 30Next →

All datasets UCF-101 BAIR Robot Pushing Sky Time-lapse UCF-101 16 frames, 64x64, Unconditional UCF-101 16 frames, Unconditional, Single GPU LAION-400M Taichi UCF-101 16 frames, 128x128, Unconditional Kinetics-600 12 frames, 64x64 How2Sign Kinetics-600 12 frames, 128x128 Kinetics-600 48 frames, 64x64

Benchmark Results

#	Model	Metric	Claimed	Verified	Status
1	MCVD	FVD16	2,460	—	Unverified
2	VDM	FVD16	1,396	—	Unverified
3	TGAN-v2 (128x128)	FVD16	1,209	—	Unverified
4	MCVD (64x64)	FVD16	1,143	—	Unverified
5	MoCoGAN-HD (256x256, unconditional)	FVD16	700	—	Unverified
6	MagicVideo (256x256, text-conditional)	FVD16	699	—	Unverified
7	TATS (256x256)	FVD16	635	—	Unverified
8	FIFO-Diffusion	FVD128	596.64	—	Unverified
9	DIGAN (128x128, unconditional)	FVD16	577	—	Unverified
10	LVDM (256x256, unconditional)	FVD16	552	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	MoCoGAN	FVD score	503	—	Unverified
2	Baseline (from LVT)	FVD score	320.9	—	Unverified
3	SVG-FP (from FVD)	FVD score	315.5	—	Unverified
4	CDNA (from FVD)	FVD score	296.5	—	Unverified
5	SV2P (from FVD)	FVD score	262.5	—	Unverified
6	SVG-LP (from vRNN)	FVD score	256.62	—	Unverified
7	WAM	FVD score	159.6	—	Unverified
8	VRNN 1L	FVD score	149.22	—	Unverified
9	SAVP (from vRNN)	FVD score	143.43	—	Unverified
10	Hier-VRNN	FVD score	143.4	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	MoCoGAN-HD (128x128)	FVD 16	183.6	—	Unverified
2	TATS (128x128)	FVD 16	132.6	—	Unverified
3	Long-video GAN (256x256)	FVD 16	116.5	—	Unverified
4	DIGAN (128x128)	FVD 16	114.6	—	Unverified
5	Long-video GAN (128x128)	FVD 16	107.5	—	Unverified
6	LVDM (256x256)	FVD 16	95.2	—	Unverified
7	DDMI	FVD 16	66.25	—	Unverified
8	Latte + LeanVAE	FVD 16	49.59	—	Unverified
9	StyleSV (256x256)	FVD 16	49	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	Video Diffusion Model	Inception Score	57	—	Unverified
2	TGAN-ODE	Inception Score	15.2	—	Unverified
3	TGAN-F	Inception Score	13.62	—	Unverified
4	MoCoGAN	Inception Score	12.42	—	Unverified
5	MoCoGAN-MDP	Inception Score	11.86	—	Unverified
6	TGAN-SVC	Inception Score	11.85	—	Unverified
7	VGAN	Inception Score	8.18	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	TGAN-F	Inception Score	22.91	—	Unverified
2	TGANv2	Inception Score	21.45	—	Unverified
3	TGANv2-ODE	Inception Score	21.02	—	Unverified
4	MoCoGAN	Inception Score	12.42	—	Unverified
5	MoCoGAN-MDP	Inception Score	11.86	—	Unverified
6	TGAN-SVC	Inception Score	11.85	—	Unverified
7	VGAN	Inception Score	8.18	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	Imagen original (constant=6)	CLIP R-Precision	92.12	—	Unverified
2	Imagen fully distilled (oscillate (15,1))	CLIP R-Precision	90.97	—	Unverified
3	Imagen distilled (constant=6)	CLIP R-Precision	90.88	—	Unverified
4	Imagen original (oscillate(15,1))	CLIP R-Precision	89.91	—	Unverified
5	Imagen fully distilled (constant=6)	CLIP R-Precision	89.68	—	Unverified
6	Imagen distilled (oscillate (15,1))	CLIP R-Precision	88.78	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	DIGAN (256x256)	FVD16	156.7	—	Unverified
2	MoCoGAN-HD (128x128)	FVD16	144.7	—	Unverified
3	DIGAN (128x128)	FVD16	128.1	—	Unverified
4	LVDM (256x256)	FVD16	99	—	Unverified
5	TATS (128x128)	FVD16	94.6	—	Unverified
6	StyleSV (256x256)	FVD16	82.6	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	TGANv2 (2020)	Inception Score	28.87	—	Unverified
2	DVD-GAN	Inception Score	27.38	—	Unverified
3	VideoGPT	Inception Score	24.69	—	Unverified
4	TGANv2	Inception Score	24.34	—	Unverified
5	TGAN-F	Inception Score	22.91	—	Unverified
6	TGANv2-ODE	Inception Score	21.02	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	DVD-GAN	FVD	31.1	—	Unverified
2	MAGVIT	FVD	9.9	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	INR-V	FVD16	144	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	DVD-GAN	FID	2.16	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	DVD-GAN	FID	12.92	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	DiT-XL/2 + CVAE-FT-SE	FID	8.59	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	VideoAssembler (Zero-Shot, 256x256, class-conditional)	FVD16	252	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	PG-SWGAN-3D	FID	404.1	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	StyleSV	FVD16	207.2	—	Unverified