Video Generation

( Various Video Generation Tasks. Gif credit: MaGViT )

Papers

Recently Added Most Hyped Most Active Needs Verification Most Verified

Showing 751–800 of 1466 papers

Title	Date	Tasks	Status
Modular Action Concept Grounding in Semantic Video Prediction	Nov 23, 2020	Action RecognitionMixture-of-Experts	—Unverified
Action-conditioned video data improves predictability	Apr 8, 2024	Video Generation	—Unverified
AdaDiff: Adaptive Step Selection for Fast Diffusion Models	Nov 24, 2023	DenoisingImage Generation	—Unverified
Adapting Image-to-Video Diffusion Models for Large-Motion Frame Interpolation	Dec 22, 2024	Video Frame InterpolationVideo Generation	—Unverified
Adaptive Caching for Faster Video Generation with Diffusion Transformers	Nov 4, 2024	DenoisingVideo Generation	—Unverified
Ada-TTA: Towards Adaptive High-Quality Text-to-Talking Avatar Synthesis	Jun 6, 2023	Neural Renderingtext-to-speech	—Unverified
Advancing Auto-Regressive Continuation for Video Frames	Dec 4, 2024	Autonomous DrivingOptical Flow Estimation	—Unverified
Advancing Video Quality Assessment for AIGC	Sep 23, 2024	Image GenerationText Generation	—Unverified
AesopAgent: Agent-driven Evolutionary System on Story-to-Video Production	Mar 12, 2024	Image GenerationRAG	—Unverified
Aether: Geometric-Aware Unified World Modeling	Mar 24, 2025	Dynamic ReconstructionPrediction	—Unverified
A Hierarchical Variational Neural Uncertainty Model for Stochastic Video Prediction	Oct 6, 2021	DiversityVideo Generation	—Unverified
AKiRa: Augmentation Kit on Rays for optical video generation	Dec 18, 2024	Video Generation	—Unverified
Alignment is All You Need: A Training-free Augmentation Strategy for Pose-guided Video Generation	Aug 29, 2024	AllVideo Generation	—Unverified
Align Your Gaussians: Text-to-4D with Dynamic 3D Gaussians and Composed Diffusion Models	Dec 21, 2023	Synthetic Data GenerationVideo Generation	—Unverified
AnchorCrafter: Animate CyberAnchors Saling Your Products via Human-Object Interacting Video Generation	Nov 26, 2024	Human-Object Interaction DetectionObject	—Unverified
Anchored Diffusion for Video Face Reenactment	Jul 21, 2024	Face ReenactmentVideo Generation	—Unverified
AniClipart: Clipart Animation with Text-to-Video Priors	Apr 18, 2024	Image to Video GenerationText-to-Video Generation	—Unverified
AniGS: Animatable Gaussian Avatar from a Single Image with Inconsistent Gaussian Reconstruction	Dec 3, 2024	3D ReconstructionVideo Generation	—Unverified
AnimateAnything: Consistent and Controllable Animation for Video Generation	Nov 16, 2024	Video Generation	—Unverified
AnimateDiff-Lightning: Cross-Model Diffusion Distillation	Mar 19, 2024	modelVideo Generation	—Unverified
Animate Your Motion: Turning Still Images into Dynamic Videos	Mar 15, 2024	SpecificityText-to-Video Generation	—Unverified
AnimateZoo: Zero-shot Video Generation of Cross-Species Animation via Subject Alignment	Apr 7, 2024	Video EditingVideo Generation	—Unverified
Animating the Past: Reconstruct Trilobite via Video Generation	Oct 10, 2024	Language ModellingLarge Language Model	—Unverified
Any2Caption:Interpreting Any Condition to Caption for Controllable Video Generation	Mar 31, 2025	Video Generation	—Unverified
AnyCharV: Bootstrap Controllable Character Video Generation with Fine-to-Coarse Guidance	Feb 12, 2025	Video Generation	—Unverified
AnyI2V: Animating Any Conditional Image with Motion Control	Jul 3, 2025	Style TransferVideo Generation	—Unverified
APLA: Additional Perturbation for Latent Noise with Adversarial Training Enables Consistency	Aug 24, 2023	Video Generation	—Unverified
ARDuP: Active Region Video Diffusion for Universal Policies	Jun 19, 2024	Decision MakingSequential Decision Making	—Unverified
A Recipe for Scaling up Text-to-Video Generation with Text-free Videos	Dec 25, 2023	Image GenerationText to Image Generation	—Unverified
A review of Generative Adversarial Networks (GANs) and its applications in a wide variety of disciplines -- From Medical to Remote Sensing	Oct 1, 2021	AstronomyGenerative Adversarial Network	—Unverified
A Review of Multi-Modal Large Language and Vision Models	Mar 28, 2024	Image CaptioningPrompt Engineering	—Unverified
ARLON: Boosting Diffusion Transformers with Autoregressive Models for Long Video Generation	Oct 27, 2024	Video Generation	—Unverified
ArrowGAN : Learning to Generate Videos by Learning Arrow of Time	Jan 11, 2021	Conditional Image GenerationImage Generation	—Unverified
ARTV: Auto-Regressive Text-to-Video Generation with Diffusion Models	Nov 30, 2023	Text-to-Video GenerationVideo Generation	—Unverified
Articulate That Object Part (ATOP): 3D Part Articulation from Text and Motion Personalization	Feb 11, 2025	Image GenerationMotion Generation	—Unverified
A spatiotemporal style transfer algorithm for dynamic visual stimulus generation	Mar 7, 2024	Image GenerationObject Recognition	—Unverified
Astraea: A GPU-Oriented Token-wise Acceleration Framework for Video Diffusion Transformers	Jun 5, 2025	GPUText-to-Video Generation	—Unverified
A Survey of Defenses against AI-generated Visual Media: Detection, Disruption, and Authentication	Jul 15, 2024	FairnessImage Generation	—Unverified
A Survey of Emerging Approaches and Advances in Video Generation	Nov 9, 2024	Image to Video GenerationLanguage Modeling	—Unverified
A Survey on Generative AI and LLM for Video Generation, Understanding, and Streaming	Jan 30, 2024	Video GenerationVideo Understanding	—Unverified
A Survey on Long Video Generation: Challenges, Methods, and Prospects	Mar 25, 2024	SurveyVideo Generation	—Unverified
A Survey on Long-Video Storytelling Generation: Architectures, Consistency, and Cinematic Quality	Jul 9, 2025	DiversityVideo Generation	—Unverified
A Survey on Vision Autoregressive Model	Nov 13, 2024	3D GenerationBenchmarking	—Unverified
ASurvey: Spatiotemporal Consistency in Video Generation	Feb 25, 2025	Image GenerationVideo Generation	—Unverified
AsymKV: Enabling 1-Bit Quantization of KV Cache with Layer-Wise Asymmetric Quantization Configurations	Oct 17, 2024	DecoderQuantization	—Unverified
ATI: Any Trajectory Instruction for Controllable Video Generation	May 28, 2025	Image to Video GenerationVideo Generation	—Unverified
AtomoVideo: High Fidelity Image-to-Video Generation	Mar 4, 2024	Image GenerationImage to Video Generation	—Unverified
AudCast: Audio-Driven Human Video Generation by Cascaded Diffusion Transformers	Mar 25, 2025	Video Generation	—Unverified
Audio-Driven Co-Speech Gesture Video Generation	Dec 5, 2022	Video Generation	—Unverified
Audio-driven Gesture Generation via Deviation Feature in the Latent Space	Mar 27, 2025	Gesture GenerationVideo Generation	—Unverified

Show:10 25 50

← PrevPage 16 of 30Next →

All datasets UCF-101 BAIR Robot Pushing Sky Time-lapse UCF-101 16 frames, 64x64, Unconditional UCF-101 16 frames, Unconditional, Single GPU LAION-400M Taichi UCF-101 16 frames, 128x128, Unconditional Kinetics-600 12 frames, 64x64 How2Sign Kinetics-600 12 frames, 128x128 Kinetics-600 48 frames, 64x64

Benchmark Results

#	Model	Metric	Claimed	Verified	Status
1	MCVD	FVD16	2,460	—	Unverified
2	VDM	FVD16	1,396	—	Unverified
3	TGAN-v2 (128x128)	FVD16	1,209	—	Unverified
4	MCVD (64x64)	FVD16	1,143	—	Unverified
5	MoCoGAN-HD (256x256, unconditional)	FVD16	700	—	Unverified
6	MagicVideo (256x256, text-conditional)	FVD16	699	—	Unverified
7	TATS (256x256)	FVD16	635	—	Unverified
8	FIFO-Diffusion	FVD128	596.64	—	Unverified
9	DIGAN (128x128, unconditional)	FVD16	577	—	Unverified
10	LVDM (256x256, unconditional)	FVD16	552	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	MoCoGAN	FVD score	503	—	Unverified
2	Baseline (from LVT)	FVD score	320.9	—	Unverified
3	SVG-FP (from FVD)	FVD score	315.5	—	Unverified
4	CDNA (from FVD)	FVD score	296.5	—	Unverified
5	SV2P (from FVD)	FVD score	262.5	—	Unverified
6	SVG-LP (from vRNN)	FVD score	256.62	—	Unverified
7	WAM	FVD score	159.6	—	Unverified
8	VRNN 1L	FVD score	149.22	—	Unverified
9	SAVP (from vRNN)	FVD score	143.43	—	Unverified
10	Hier-VRNN	FVD score	143.4	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	MoCoGAN-HD (128x128)	FVD 16	183.6	—	Unverified
2	TATS (128x128)	FVD 16	132.6	—	Unverified
3	Long-video GAN (256x256)	FVD 16	116.5	—	Unverified
4	DIGAN (128x128)	FVD 16	114.6	—	Unverified
5	Long-video GAN (128x128)	FVD 16	107.5	—	Unverified
6	LVDM (256x256)	FVD 16	95.2	—	Unverified
7	DDMI	FVD 16	66.25	—	Unverified
8	Latte + LeanVAE	FVD 16	49.59	—	Unverified
9	StyleSV (256x256)	FVD 16	49	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	Video Diffusion Model	Inception Score	57	—	Unverified
2	TGAN-ODE	Inception Score	15.2	—	Unverified
3	TGAN-F	Inception Score	13.62	—	Unverified
4	MoCoGAN	Inception Score	12.42	—	Unverified
5	MoCoGAN-MDP	Inception Score	11.86	—	Unverified
6	TGAN-SVC	Inception Score	11.85	—	Unverified
7	VGAN	Inception Score	8.18	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	TGAN-F	Inception Score	22.91	—	Unverified
2	TGANv2	Inception Score	21.45	—	Unverified
3	TGANv2-ODE	Inception Score	21.02	—	Unverified
4	MoCoGAN	Inception Score	12.42	—	Unverified
5	MoCoGAN-MDP	Inception Score	11.86	—	Unverified
6	TGAN-SVC	Inception Score	11.85	—	Unverified
7	VGAN	Inception Score	8.18	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	Imagen original (constant=6)	CLIP R-Precision	92.12	—	Unverified
2	Imagen fully distilled (oscillate (15,1))	CLIP R-Precision	90.97	—	Unverified
3	Imagen distilled (constant=6)	CLIP R-Precision	90.88	—	Unverified
4	Imagen original (oscillate(15,1))	CLIP R-Precision	89.91	—	Unverified
5	Imagen fully distilled (constant=6)	CLIP R-Precision	89.68	—	Unverified
6	Imagen distilled (oscillate (15,1))	CLIP R-Precision	88.78	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	DIGAN (256x256)	FVD16	156.7	—	Unverified
2	MoCoGAN-HD (128x128)	FVD16	144.7	—	Unverified
3	DIGAN (128x128)	FVD16	128.1	—	Unverified
4	LVDM (256x256)	FVD16	99	—	Unverified
5	TATS (128x128)	FVD16	94.6	—	Unverified
6	StyleSV (256x256)	FVD16	82.6	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	TGANv2 (2020)	Inception Score	28.87	—	Unverified
2	DVD-GAN	Inception Score	27.38	—	Unverified
3	VideoGPT	Inception Score	24.69	—	Unverified
4	TGANv2	Inception Score	24.34	—	Unverified
5	TGAN-F	Inception Score	22.91	—	Unverified
6	TGANv2-ODE	Inception Score	21.02	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	DVD-GAN	FVD	31.1	—	Unverified
2	MAGVIT	FVD	9.9	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	INR-V	FVD16	144	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	DVD-GAN	FID	2.16	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	DVD-GAN	FID	12.92	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	DiT-XL/2 + CVAE-FT-SE	FID	8.59	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	VideoAssembler (Zero-Shot, 256x256, class-conditional)	FVD16	252	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	PG-SWGAN-3D	FID	404.1	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	StyleSV	FVD16	207.2	—	Unverified