Video Generation

( Various Video Generation Tasks. Gif credit: MaGViT )

Papers

Recently Added Most Hyped Most Active Needs Verification Most Verified

Showing 901–950 of 1466 papers

Title	Date	Tasks	Status
DiTFastAttn: Attention Compression for Diffusion Transformer Models	Jun 12, 2024	2kImage Generation	—Unverified
DiTPainter: Efficient Video Inpainting with Diffusion Transformers	Apr 22, 2025	Video GenerationVideo Inpainting	—Unverified
DIVD: Deblurring with Improved Video Diffusion Model	Dec 1, 2024	Deblurringmodel	—Unverified
DiVE: DiT-based Video Generation with Enhanced Control	Sep 3, 2024	Autonomous DrivingVideo Generation	—Unverified
DiVE: Efficient Multi-View Driving Scenes Generation Based on Video Diffusion Transformer	Apr 28, 2025	Video Generation	—Unverified
DIY Human Action Data Set Generation	Mar 29, 2018	Action RecognitionTemporal Action Localization	—Unverified
DOLLAR: Few-Step Video Generation via Distillation and Latent Reward Optimization	Dec 20, 2024	Computational EfficiencyDiversity	—Unverified
DragEntity: Trajectory Guided Video Generation using Entity and Positional Relationships	Oct 14, 2024	Video Generation	—Unverified
DreamActor-H1: High-Fidelity Human-Product Demonstration Video Generation via Motion-designed Diffusion Transformers	Jun 12, 2025	Data AugmentationMarketing	—Unverified
DreamDance: Animating Character Art via Inpainting Stable Gaussian Worlds	May 30, 2025	Image InpaintingVideo Generation	—Unverified
DreamDrive: Generative 4D Scene Modeling from Street View Images	Dec 31, 2024	Autonomous DrivingNeural Rendering	—Unverified
DreamFactory: Pioneering Multi-Scene Long Video Generation with a Multi-Agent Framework	Aug 21, 2024	Video Generation	—Unverified
Dreamitate: Real-World Visuomotor Policy Learning via Video Generation	Jun 24, 2024	Video Generation	—Unverified
Dreamix: Video Diffusion Models are General Video Editors	Feb 2, 2023	Image AnimationImage to Video Generation	—Unverified
DreaMoving: A Human Video Generation Framework based on Diffusion Models	Dec 8, 2023	Video Generation	—Unverified
DreamRelation: Relation-Centric Video Customization	Mar 10, 2025	RelationTriplet	—Unverified
DreamRunner: Fine-Grained Storytelling Video Generation with Retrieval-Augmented Motion Adaptation	Nov 25, 2024	Large Language ModelMotion Planning	—Unverified
DreamVideo-2: Zero-Shot Subject-Driven Video Customization with Precise Motion Control	Oct 17, 2024	Video Generation	—Unverified
DreamVideo: Composing Your Dream Videos with Customized Subject and Motion	Dec 7, 2023	Image GenerationVideo Generation	—Unverified
DreamVideo: High-Fidelity Image-to-Video Generation with Image Retention and Text Guidance	Dec 5, 2023	Image to Video GenerationVideo Generation	—Unverified
DriveDreamer4D: World Models Are Effective Data Machines for 4D Driving Scene Representation	Oct 17, 2024	3DGS4D reconstruction	—Unverified
DriveGenVLM: Real-world Video Generation for Vision Language Model based Autonomous Driving	Aug 29, 2024	Autonomous DrivingDenoising	—Unverified
DriveScape: High-Resolution Driving Video Generation by Multi-View Feature Fusion	Jan 1, 2025	Autonomous DrivingDenoising	—Unverified
DriveScape: Towards High-Resolution Controllable Multi-View Driving Video Generation	Sep 9, 2024	Autonomous DrivingVideo Generation	—Unverified
DrivingGPT: Unifying Driving World Modeling and Planning with Multi-modal Autoregressive Transformers	Dec 24, 2024	NavSimTrajectory Planning	—Unverified
Dual-MTGAN: Stochastic and Deterministic Motion Transfer for Image-to-Video Synthesis	Feb 26, 2021	Motion GenerationVideo Generation	—Unverified
DualReal: Adaptive Joint Training for Lossless Identity-Motion Fusion in Video Customization	May 4, 2025	DenoisingText-to-Video Generation	—Unverified
Dual-Stream Diffusion Net for Text-to-Video Generation	Aug 16, 2023	Text-to-Video GenerationVideo Generation	—Unverified
DualX-VSR: Dual Axial SpatialTemporal Transformer for Real-World Video Super-Resolution without Motion Compensation	Jun 5, 2025	Motion CompensationOptical Flow Estimation	—Unverified
Dynamic Camera Poses and Where to Find Them	Jan 1, 2025	Point TrackingPose Estimation	—Unverified
Dynamic-I2V: Exploring Image-to-Video Generaion Models via Multimodal LLM	May 26, 2025	Image to Video GenerationVideo Generation	—Unverified
Dynamic Neural Textures: Generating Talking-Face Videos with Continuously Controllable Expressions	Apr 13, 2022	Video Generation	—Unverified
DynamicScaler: Seamless and Scalable Video Generation for Panoramic Scenes	Dec 15, 2024	DenoisingVideo Generation	—Unverified
DyST-XL: Dynamic Layout Planning and Content Control for Compositional Text-to-Video Generation	Apr 21, 2025	AttributeDenoising	—Unverified
E2VIDiff: Perceptual Events-to-Video Reconstruction using Diffusion Priors	Jul 11, 2024	Image GenerationVideo Generation	—Unverified
EasyControl: Transfer ControlNet to Video Diffusion for Controllable Generation and Interpolation	Aug 23, 2024	Image GenerationVideo Generation	—Unverified
EasyGenNet: An Efficient Framework for Audio-Driven Gesture Video Generation Based on Diffusion Model	Apr 11, 2025	Gesture GenerationVideo Generation	—Unverified
Echocardiography video synthesis from end diastolic semantic map via diffusion model	Oct 11, 2023	DenoisingVideo Generation	—Unverified
EchoFlow: A Foundation Model for Cardiac Ultrasound Image and Video Generation	Mar 28, 2025	Medical Image AnalysisPrivacy Preserving	—Unverified
EEG to fMRI Synthesis: Is Deep Learning a candidate?	Sep 29, 2020	Deep LearningEEG	—Unverified
Efficient training for future video generation based on hierarchical disentangled representation of latent variables	Jun 7, 2021	Future predictionImage Generation	—Unverified
Efficient Video Diffusion Models via Content-Frame Motion-Latent Decomposition	Mar 21, 2024	Video Generation	—Unverified
EgoVid-5M: A Large-Scale Video-Action Dataset for Egocentric Video Generation	Nov 13, 2024	Video Generation	—Unverified
EIDT-V: Exploiting Intersections in Diffusion Trajectories for Model-Agnostic, Zero-Shot, Training-Free Text-to-Video Generation	Jan 1, 2025	Image GenerationText-to-Video Generation	—Unverified
EMO2: End-Effector Guided Audio-Driven Avatar Video Generation	Jan 18, 2025	Gesture GenerationVideo Generation	—Unverified
EMO: Emote Portrait Alive -- Generating Expressive Portrait Videos with Audio2Video Diffusion Model under Weak Conditions	Feb 27, 2024	Video Generation	—Unverified
Dysen-VDM: Empowering Dynamics-aware Text-to-Video Diffusion with LLMs	Aug 26, 2023	In-Context LearningVideo Generation	—Unverified
Emu Video: Factorizing Text-to-Video Generation by Explicit Image Conditioning	Nov 17, 2023	Text-to-Video GenerationVideo Generation	—Unverified
Enabling Versatile Controls for Video Diffusion Models	Mar 21, 2025	Text-to-Video GenerationVideo Generation	—Unverified
Enabling Visual Composition and Animation in Unsupervised Video Generation	Mar 21, 2024	Video Generation	—Unverified

Show:10 25 50

← PrevPage 19 of 30Next →

All datasets UCF-101 BAIR Robot Pushing Sky Time-lapse UCF-101 16 frames, 64x64, Unconditional UCF-101 16 frames, Unconditional, Single GPU LAION-400M Taichi UCF-101 16 frames, 128x128, Unconditional Kinetics-600 12 frames, 64x64 How2Sign Kinetics-600 12 frames, 128x128 Kinetics-600 48 frames, 64x64

Benchmark Results

#	Model	Metric	Claimed	Verified	Status
1	MCVD	FVD16	2,460	—	Unverified
2	VDM	FVD16	1,396	—	Unverified
3	TGAN-v2 (128x128)	FVD16	1,209	—	Unverified
4	MCVD (64x64)	FVD16	1,143	—	Unverified
5	MoCoGAN-HD (256x256, unconditional)	FVD16	700	—	Unverified
6	MagicVideo (256x256, text-conditional)	FVD16	699	—	Unverified
7	TATS (256x256)	FVD16	635	—	Unverified
8	FIFO-Diffusion	FVD128	596.64	—	Unverified
9	DIGAN (128x128, unconditional)	FVD16	577	—	Unverified
10	LVDM (256x256, unconditional)	FVD16	552	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	MoCoGAN	FVD score	503	—	Unverified
2	Baseline (from LVT)	FVD score	320.9	—	Unverified
3	SVG-FP (from FVD)	FVD score	315.5	—	Unverified
4	CDNA (from FVD)	FVD score	296.5	—	Unverified
5	SV2P (from FVD)	FVD score	262.5	—	Unverified
6	SVG-LP (from vRNN)	FVD score	256.62	—	Unverified
7	WAM	FVD score	159.6	—	Unverified
8	VRNN 1L	FVD score	149.22	—	Unverified
9	SAVP (from vRNN)	FVD score	143.43	—	Unverified
10	Hier-VRNN	FVD score	143.4	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	MoCoGAN-HD (128x128)	FVD 16	183.6	—	Unverified
2	TATS (128x128)	FVD 16	132.6	—	Unverified
3	Long-video GAN (256x256)	FVD 16	116.5	—	Unverified
4	DIGAN (128x128)	FVD 16	114.6	—	Unverified
5	Long-video GAN (128x128)	FVD 16	107.5	—	Unverified
6	LVDM (256x256)	FVD 16	95.2	—	Unverified
7	DDMI	FVD 16	66.25	—	Unverified
8	Latte + LeanVAE	FVD 16	49.59	—	Unverified
9	StyleSV (256x256)	FVD 16	49	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	Video Diffusion Model	Inception Score	57	—	Unverified
2	TGAN-ODE	Inception Score	15.2	—	Unverified
3	TGAN-F	Inception Score	13.62	—	Unverified
4	MoCoGAN	Inception Score	12.42	—	Unverified
5	MoCoGAN-MDP	Inception Score	11.86	—	Unverified
6	TGAN-SVC	Inception Score	11.85	—	Unverified
7	VGAN	Inception Score	8.18	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	TGAN-F	Inception Score	22.91	—	Unverified
2	TGANv2	Inception Score	21.45	—	Unverified
3	TGANv2-ODE	Inception Score	21.02	—	Unverified
4	MoCoGAN	Inception Score	12.42	—	Unverified
5	MoCoGAN-MDP	Inception Score	11.86	—	Unverified
6	TGAN-SVC	Inception Score	11.85	—	Unverified
7	VGAN	Inception Score	8.18	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	Imagen original (constant=6)	CLIP R-Precision	92.12	—	Unverified
2	Imagen fully distilled (oscillate (15,1))	CLIP R-Precision	90.97	—	Unverified
3	Imagen distilled (constant=6)	CLIP R-Precision	90.88	—	Unverified
4	Imagen original (oscillate(15,1))	CLIP R-Precision	89.91	—	Unverified
5	Imagen fully distilled (constant=6)	CLIP R-Precision	89.68	—	Unverified
6	Imagen distilled (oscillate (15,1))	CLIP R-Precision	88.78	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	DIGAN (256x256)	FVD16	156.7	—	Unverified
2	MoCoGAN-HD (128x128)	FVD16	144.7	—	Unverified
3	DIGAN (128x128)	FVD16	128.1	—	Unverified
4	LVDM (256x256)	FVD16	99	—	Unverified
5	TATS (128x128)	FVD16	94.6	—	Unverified
6	StyleSV (256x256)	FVD16	82.6	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	TGANv2 (2020)	Inception Score	28.87	—	Unverified
2	DVD-GAN	Inception Score	27.38	—	Unverified
3	VideoGPT	Inception Score	24.69	—	Unverified
4	TGANv2	Inception Score	24.34	—	Unverified
5	TGAN-F	Inception Score	22.91	—	Unverified
6	TGANv2-ODE	Inception Score	21.02	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	DVD-GAN	FVD	31.1	—	Unverified
2	MAGVIT	FVD	9.9	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	INR-V	FVD16	144	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	DVD-GAN	FID	2.16	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	DVD-GAN	FID	12.92	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	DiT-XL/2 + CVAE-FT-SE	FID	8.59	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	VideoAssembler (Zero-Shot, 256x256, class-conditional)	FVD16	252	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	PG-SWGAN-3D	FID	404.1	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	StyleSV	FVD16	207.2	—	Unverified