Video Generation

( Various Video Generation Tasks. Gif credit: MaGViT )

Papers

Recently Added Most Hyped Most Active Needs Verification Most Verified

Showing 351–400 of 1466 papers

Title	Date	Tasks	Status	Hype
Conditional diffusion model with spatial attention and latent embedding for medical image segmentation	Feb 10, 2025	HippocampusImage Segmentation	CodeCode Available	1
FastCar: Cache Attentive Replay for Fast Auto-Regressive Video Generation on the Edge	May 17, 2025	Image GenerationScheduling	CodeCode Available	1
Patch-based Object-centric Transformers for Efficient Video Generation	Jun 8, 2022	ObjectVideo Editing	CodeCode Available	1
Playable Video Generation	Jan 28, 2021	DecoderVideo Generation	CodeCode Available	1
SeqDiffuSeq: Text Diffusion with Encoder-Decoder Transformers	Dec 20, 2022	DecoderDenoising	CodeCode Available	1
StyleInV: A Temporal Style Modulated Inversion Network for Unconditional Video Generation	Aug 31, 2023	Style TransferUnconditional Video Generation	CodeCode Available	1
OnlyFlow: Optical Flow based Motion Conditioning for Video Diffusion Models	Nov 15, 2024	Optical Flow EstimationText-to-Video Generation	CodeCode Available	1
OneTo3D: One Image to Re-editable Dynamic 3D Model and Video Generation	May 10, 2024	3D ReconstructionImage to 3D	CodeCode Available	1
OpenCarbonEval: A Unified Carbon Emission Estimation Framework in Large-Scale AI Models	May 21, 2024	Video Generation	CodeCode Available	1
NÜWA: Visual Synthesis Pre-training for Neural visUal World creAtion	Nov 24, 2021	DecoderImage Generation	CodeCode Available	1
AIGVE-Tool: AI-Generated Video Evaluation Toolkit with Multifaceted Benchmark	Mar 18, 2025	Video Generation	CodeCode Available	1
Object-Centric Image to Video Generation with Language Guidance	Feb 17, 2025	Image to Video GenerationObject	CodeCode Available	1
EG4D: Explicit Generation of 4D Object without Score Distillation	May 28, 2024	Dynamic ReconstructionVideo Generation	CodeCode Available	1
Non-linear Motion Estimation for Video Frame Interpolation using Space-time Convolutions	Jan 27, 2022	Motion EstimationVideo Frame Interpolation	CodeCode Available	1
Temporal Shift GAN for Large Scale Video Generation	Apr 4, 2020	Video Generation	CodeCode Available	1
AIGV-Assessor: Benchmarking and Evaluating the Perceptual Quality of Text-to-Video Generation with LMM	Nov 26, 2024	BenchmarkingText-to-Video Generation	CodeCode Available	1
Multi-StyleGAN: Towards Image-Based Simulation of Time-Lapse Live-Cell Microscopy	Jun 15, 2021	DescriptiveGenerative Adversarial Network	CodeCode Available	1
MVOC: a training-free multiple video object composition method with diffusion models	Jun 22, 2024	Image to Video GenerationObject	CodeCode Available	1
EfficientMT: Efficient Temporal Adaptation for Motion Transfer in Text-to-Video Diffusion Models	Mar 25, 2025	Video Generation	CodeCode Available	1
Efficient Diffusion Models: A Comprehensive Survey from Principles to Practices	Oct 15, 2024	Image Generationmultimodal generation	CodeCode Available	1
Editable Free-viewpoint Video Using a Layered Neural Representation	Apr 30, 2021	DisentanglementNeRF	CodeCode Available	1
Compositional Video Synthesis with Action Graphs	Jun 27, 2020	SchedulingVideo Generation	CodeCode Available	1
EchoVideo: Identity-Preserving Human Video Generation by Multimodal Feature Fusion	Jan 23, 2025	Video Generation	CodeCode Available	1
AICL: Action In-Context Learning for Video Diffusion Model	Mar 18, 2024	Action GenerationIn-Context Learning	CodeCode Available	1
ECHOPulse: ECG controlled echocardio-grams video generation	Oct 4, 2024	Video Generation	CodeCode Available	1
EchoNet-Synthetic: Privacy-preserving Video Generation for Safe Medical Data Sharing	Jun 2, 2024	De-identificationPrivacy Preserving	CodeCode Available	1
MOSO: Decomposing MOtion, Scene and Object for Video Prediction	Mar 7, 2023	ObjectUnconditional Video Generation	CodeCode Available	1
A Simple but Strong Baseline for Sounding Video Generation: Effective Adaptation of Audio and Video Diffusion Models for Joint Generation	Sep 26, 2024	Inductive BiasVideo Generation	CodeCode Available	1
MoStGAN-V: Video Generation with Temporal Motion Styles	Apr 5, 2023	Video Generation	CodeCode Available	1
MotionCrafter: One-Shot Motion Customization of Diffusion Models	Dec 8, 2023	DisentanglementMotion Disentanglement	CodeCode Available	1
Moonshot: Towards Controllable Video Generation and Editing with Multimodal Conditions	Jan 3, 2024	Image AnimationVideo Editing	CodeCode Available	1
E2HQV: High-Quality Video Generation from Event Camera via Theory-Inspired Model-Aided Deep Learning	Jan 16, 2024	Video Generation	CodeCode Available	1
MotionCraft: Physics-based Zero-Shot Video Generation	May 22, 2024	Image GenerationMissing Elements	CodeCode Available	1
Click to Move: Controlling Video Generation with Sparse Motion	Aug 19, 2021	Video Generation	CodeCode Available	1
MM-LDM: Multi-Modal Latent Diffusion Model for Sounding Video Generation	Oct 2, 2024	Video Generation	CodeCode Available	1
ClassDiffusion: More Aligned Personalization Tuning with Explicit Class Guidance	May 27, 2024	Diffusion PersonalizationVideo Generation	CodeCode Available	1
MMGT: Motion Mask Guided Two-Stage Network for Co-Speech Gesture Video Generation	May 29, 2025	Motion GenerationVideo Generation	CodeCode Available	1
MimicMotion: High-Quality Human Motion Video Generation with Confidence-aware Pose Guidance	Jun 28, 2024	Image GenerationVideo Generation	CodeCode Available	1
CineTechBench: A Benchmark for Cinematographic Technique Understanding and Generation	May 21, 2025	Video Generation	CodeCode Available	1
Minute-Long Videos with Dual Parallelisms	May 27, 2025	DenoisingGPU	CodeCode Available	1
DyDiT++: Dynamic Diffusion Transformers for Efficient Visual Generation	Apr 9, 2025	Image GenerationText to Image Generation	CodeCode Available	1
DwNet: Dense warp-based network for pose-guided human video generation	Oct 21, 2019	Video Generation	CodeCode Available	1
A Good Image Generator Is What You Need for High-Resolution Video Synthesis	Apr 30, 2021	Video Generation	CodeCode Available	1
A Light and Tuning-free Method for Simulating Camera Motion in Video Generation	Mar 9, 2025	DenoisingDepth Estimation	CodeCode Available	1
DVD-Quant: Data-free Video Diffusion Transformers Quantization	May 24, 2025	Data Free QuantizationQuantization	CodeCode Available	1
MAVIN: Multi-Action Video Generation with Diffusion Models via Transition Video Infilling	May 28, 2024	Video Generation	CodeCode Available	1
Mask-conditioned latent diffusion for generating gastrointestinal polyp images	Apr 11, 2023	Image GenerationImage Segmentation	CodeCode Available	1
MEAD: A Large-scale Audio-visual Dataset for Emotional Talking-face Generation	Aug 1, 2020	Face GenerationTalking Face Generation	CodeCode Available	1
DualDiff+: Dual-Branch Diffusion for High-Fidelity Video Generation with Reward Guidance	Mar 5, 2025	3D Object DetectionBEV Segmentation	CodeCode Available	1
Make-A-Video: Text-to-Video Generation without Text-Video Data	Sep 29, 2022	DecoderImage Generation	CodeCode Available	1

Show:10 25 50

← PrevPage 8 of 30Next →

All datasets UCF-101 BAIR Robot Pushing Sky Time-lapse UCF-101 16 frames, 64x64, Unconditional UCF-101 16 frames, Unconditional, Single GPU LAION-400M Taichi UCF-101 16 frames, 128x128, Unconditional Kinetics-600 12 frames, 64x64 How2Sign Kinetics-600 12 frames, 128x128 Kinetics-600 48 frames, 64x64

Benchmark Results

#	Model	Metric	Claimed	Verified	Status
1	MCVD	FVD16	2,460	—	Unverified
2	VDM	FVD16	1,396	—	Unverified
3	TGAN-v2 (128x128)	FVD16	1,209	—	Unverified
4	MCVD (64x64)	FVD16	1,143	—	Unverified
5	MoCoGAN-HD (256x256, unconditional)	FVD16	700	—	Unverified
6	MagicVideo (256x256, text-conditional)	FVD16	699	—	Unverified
7	TATS (256x256)	FVD16	635	—	Unverified
8	FIFO-Diffusion	FVD128	596.64	—	Unverified
9	DIGAN (128x128, unconditional)	FVD16	577	—	Unverified
10	LVDM (256x256, unconditional)	FVD16	552	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	MoCoGAN	FVD score	503	—	Unverified
2	Baseline (from LVT)	FVD score	320.9	—	Unverified
3	SVG-FP (from FVD)	FVD score	315.5	—	Unverified
4	CDNA (from FVD)	FVD score	296.5	—	Unverified
5	SV2P (from FVD)	FVD score	262.5	—	Unverified
6	SVG-LP (from vRNN)	FVD score	256.62	—	Unverified
7	WAM	FVD score	159.6	—	Unverified
8	VRNN 1L	FVD score	149.22	—	Unverified
9	SAVP (from vRNN)	FVD score	143.43	—	Unverified
10	Hier-VRNN	FVD score	143.4	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	MoCoGAN-HD (128x128)	FVD 16	183.6	—	Unverified
2	TATS (128x128)	FVD 16	132.6	—	Unverified
3	Long-video GAN (256x256)	FVD 16	116.5	—	Unverified
4	DIGAN (128x128)	FVD 16	114.6	—	Unverified
5	Long-video GAN (128x128)	FVD 16	107.5	—	Unverified
6	LVDM (256x256)	FVD 16	95.2	—	Unverified
7	DDMI	FVD 16	66.25	—	Unverified
8	Latte + LeanVAE	FVD 16	49.59	—	Unverified
9	StyleSV (256x256)	FVD 16	49	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	Video Diffusion Model	Inception Score	57	—	Unverified
2	TGAN-ODE	Inception Score	15.2	—	Unverified
3	TGAN-F	Inception Score	13.62	—	Unverified
4	MoCoGAN	Inception Score	12.42	—	Unverified
5	MoCoGAN-MDP	Inception Score	11.86	—	Unverified
6	TGAN-SVC	Inception Score	11.85	—	Unverified
7	VGAN	Inception Score	8.18	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	TGAN-F	Inception Score	22.91	—	Unverified
2	TGANv2	Inception Score	21.45	—	Unverified
3	TGANv2-ODE	Inception Score	21.02	—	Unverified
4	MoCoGAN	Inception Score	12.42	—	Unverified
5	MoCoGAN-MDP	Inception Score	11.86	—	Unverified
6	TGAN-SVC	Inception Score	11.85	—	Unverified
7	VGAN	Inception Score	8.18	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	Imagen original (constant=6)	CLIP R-Precision	92.12	—	Unverified
2	Imagen fully distilled (oscillate (15,1))	CLIP R-Precision	90.97	—	Unverified
3	Imagen distilled (constant=6)	CLIP R-Precision	90.88	—	Unverified
4	Imagen original (oscillate(15,1))	CLIP R-Precision	89.91	—	Unverified
5	Imagen fully distilled (constant=6)	CLIP R-Precision	89.68	—	Unverified
6	Imagen distilled (oscillate (15,1))	CLIP R-Precision	88.78	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	DIGAN (256x256)	FVD16	156.7	—	Unverified
2	MoCoGAN-HD (128x128)	FVD16	144.7	—	Unverified
3	DIGAN (128x128)	FVD16	128.1	—	Unverified
4	LVDM (256x256)	FVD16	99	—	Unverified
5	TATS (128x128)	FVD16	94.6	—	Unverified
6	StyleSV (256x256)	FVD16	82.6	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	TGANv2 (2020)	Inception Score	28.87	—	Unverified
2	DVD-GAN	Inception Score	27.38	—	Unverified
3	VideoGPT	Inception Score	24.69	—	Unverified
4	TGANv2	Inception Score	24.34	—	Unverified
5	TGAN-F	Inception Score	22.91	—	Unverified
6	TGANv2-ODE	Inception Score	21.02	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	DVD-GAN	FVD	31.1	—	Unverified
2	MAGVIT	FVD	9.9	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	INR-V	FVD16	144	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	DVD-GAN	FID	2.16	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	DVD-GAN	FID	12.92	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	DiT-XL/2 + CVAE-FT-SE	FID	8.59	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	VideoAssembler (Zero-Shot, 256x256, class-conditional)	FVD16	252	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	PG-SWGAN-3D	FID	404.1	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	StyleSV	FVD16	207.2	—	Unverified