Video Generation

( Various Video Generation Tasks. Gif credit: MaGViT )

Papers

Recently Added Most Hyped Most Active Needs Verification Most Verified

Showing 1101–1150 of 1466 papers

Title	Date	Tasks	Status
Text-Animator: Controllable Visual Text Video Generation	Jun 25, 2024	Text GenerationVideo Generation	—Unverified
MotionBooth: Motion-Aware Customized Text-to-Video Generation	Jun 25, 2024	Text-to-Video GenerationVideo Generation	—Unverified
Video-Infinity: Distributed Long Video Generation	Jun 24, 2024	GPUVideo Generation	—Unverified
Dreamitate: Real-World Visuomotor Policy Learning via Video Generation	Jun 24, 2024	Video Generation	—Unverified
Identifying and Solving Conditional Image Leakage in Image-to-Video Diffusion Model	Jun 22, 2024	AttributeImage to Video Generation	—Unverified
VideoScore: Building Automatic Metrics to Simulate Fine-grained Human Feedback for Video Generation	Jun 21, 2024	Video GenerationVideo Quality Assessment	—Unverified
ExVideo: Extending Video Diffusion Models via Parameter-Efficient Post-Tuning	Jun 20, 2024	GPUVideo Generation	CodeCode Available
Video Generation with Learned Action Prior	Jun 20, 2024	Image GenerationImage Reconstruction	—Unverified
ARDuP: Active Region Video Diffusion for Universal Policies	Jun 19, 2024	Decision MakingSequential Decision Making	—Unverified
Splatter a Video: Video Gaussian Representation for Versatile Processing	Jun 19, 2024	Depth EstimationDepth Prediction	—Unverified
NLDF: Neural Light Dynamic Fields for Efficient 3D Talking Head Generation	Jun 17, 2024	Knowledge DistillationNeRF	—Unverified
Vid3D: Synthesis of Dynamic 3D Scenes using 2D Video Diffusion	Jun 17, 2024	Video Generation	CodeCode Available
Training-free Camera Control for Video Generation	Jun 14, 2024	Data AugmentationVideo Generation	—Unverified
Vivid-ZOO: Multi-View Video Generation with Diffusion Model	Jun 12, 2024	Video Generation	—Unverified
Hierarchical Patch Diffusion Models for High-Resolution Video Generation	Jun 12, 2024	Video Generation	—Unverified
DiTFastAttn: Attention Compression for Diffusion Transformer Models	Jun 12, 2024	2kImage Generation	—Unverified
HOI-Swap: Swapping Objects in Videos with Hand-Object Interaction Awareness	Jun 11, 2024	ObjectVideo Editing	—Unverified
4Real: Towards Photorealistic 4D Scene Generation via Video Diffusion Models	Jun 11, 2024	Scene GenerationVideo Generation	—Unverified
Visual Representation Learning with Stochastic Frame Prediction	Jun 11, 2024	DecoderPose Tracking	—Unverified
AV-DiT: Efficient Audio-Visual Diffusion Transformer for Joint Audio and Video Generation	Jun 11, 2024	Audio GenerationVideo Generation	—Unverified
CoNo: Consistency Noise Injection for Tuning-free Long Video Diffusion	Jun 7, 2024	SchedulingVideo Generation	—Unverified
Zero-Shot Video Editing through Adaptive Sliding Score Distillation	Jun 7, 2024	DenoisingText-to-Video Generation	—Unverified
VideoPhy: Evaluating Physical Commonsense for Video Generation	Jun 5, 2024	Video Generation	—Unverified
Follow-Your-Pose v2: Multiple-Condition Guided Character Image Animation for Stable Pose Control	Jun 5, 2024	Image AnimationVideo Generation	—Unverified
CamCo: Camera-Controllable 3D-Consistent Image-to-Video Generation	Jun 4, 2024	Image to Video GenerationVideo Generation	—Unverified
V-Express: Conditional Dropout for Progressive Training of Portrait Video Generation	Jun 4, 2024	Video Generation	—Unverified
I4VGen: Image as Free Stepping Stone for Text-to-Video Generation	Jun 4, 2024	DiversityImage Generation	—Unverified
Learning Temporally Consistent Video Depth from Video Diffusion Priors	Jun 3, 2024	Depth EstimationNovel View Synthesis	—Unverified
Unleashing Generalization of End-to-End Autonomous Driving with Controllable Long Video Generation	Jun 3, 2024	Autonomous DrivingVideo Generation	—Unverified
4Diffusion: Multi-view Video Diffusion Model for 4D Generation	May 31, 2024	NeRFVideo Generation	—Unverified
VITON-DiT: Learning In-the-Wild Video Try-On from Human Dance Videos via Diffusion Transformers	May 28, 2024	DenoisingVideo Generation	—Unverified
MMDisCo: Multi-Modal Discriminator-Guided Cooperative Diffusion for Joint Audio and Video Generation	May 28, 2024	Video Generation	CodeCode Available
RefDrop: Controllable Consistency in Image or Video Generation via Reference Feature Guidance	May 27, 2024	Image GenerationVideo Generation	—Unverified
Sync4D: Video Guided Controllable Dynamics for Physics-Based 4D Generation	May 27, 2024	Video Generation	—Unverified
Human4DiT: 360-degree Human Video Generation with 4D Diffusion Transformer	May 27, 2024	Video Generation	—Unverified
Controllable Longer Image Animation with Diffusion Models	May 27, 2024	Image Animationmotion prediction	—Unverified
Collaborative Video Diffusion: Consistent Multi-video Generation with Camera Control	May 27, 2024	Scene GenerationVideo Generation	—Unverified
Towards Multi-Task Multi-Modal Models: A Video Generative Perspective	May 26, 2024	Language ModelingLanguage Modelling	—Unverified
Disentangling Foreground and Background Motion for Enhanced Realism in Human Video Generation	May 26, 2024	Video Generation	—Unverified
A Misleading Gallery of Fluid Motion by Generative Artificial Intelligence	May 24, 2024	Text GenerationVideo Generation	CodeCode Available
Scaling Diffusion Mamba with Bidirectional SSMs for Efficient Image and Video Generation	May 24, 2024	Image GenerationMamba	—Unverified
PoseCrafter: One-Shot Personalized Video Synthesis Following Flexible Pose Control	May 23, 2024	Video Generation	—Unverified
Fisher Flow Matching for Generative Modeling over Discrete Data	May 23, 2024	Language ModelingLanguage Modelling	—Unverified
MagicDrive3D: Controllable 3D Generation for Any-View Rendering in Street Scenes	May 23, 2024	3D GenerationAutonomous Driving	—Unverified
ReVideo: Remake a Video with Motion and Content Control	May 22, 2024	Video EditingVideo Generation	—Unverified
DisenStudio: Customized Multi-subject Text-to-Video Generation with Disentangled Spatial Control	May 21, 2024	AttributeMotion Generation	—Unverified
CamViG: Camera Aware Image-to-Video Generation with Multimodal Transformers	May 21, 2024	Image to Video GenerationVideo Generation	—Unverified
Dance Any Beat: Blending Beats with Visuals in Dance Video Generation	May 15, 2024	Image to Video GenerationOptical Flow Estimation	—Unverified
The Lost Melody: Empirical Observations on Text-to-Video Generation From A Storytelling Perspective	May 13, 2024	Text-to-Video GenerationVideo Generation	—Unverified
Reviewing Intelligent Cinematography: AI research for camera-based video production	May 8, 2024	Camera Calibrationobject-detection	—Unverified

Show:10 25 50

← PrevPage 23 of 30Next →

All datasets UCF-101 BAIR Robot Pushing Sky Time-lapse UCF-101 16 frames, 64x64, Unconditional UCF-101 16 frames, Unconditional, Single GPU LAION-400M Taichi UCF-101 16 frames, 128x128, Unconditional Kinetics-600 12 frames, 64x64 How2Sign Kinetics-600 12 frames, 128x128 Kinetics-600 48 frames, 64x64

Benchmark Results

#	Model	Metric	Claimed	Verified	Status
1	MCVD	FVD16	2,460	—	Unverified
2	VDM	FVD16	1,396	—	Unverified
3	TGAN-v2 (128x128)	FVD16	1,209	—	Unverified
4	MCVD (64x64)	FVD16	1,143	—	Unverified
5	MoCoGAN-HD (256x256, unconditional)	FVD16	700	—	Unverified
6	MagicVideo (256x256, text-conditional)	FVD16	699	—	Unverified
7	TATS (256x256)	FVD16	635	—	Unverified
8	FIFO-Diffusion	FVD128	596.64	—	Unverified
9	DIGAN (128x128, unconditional)	FVD16	577	—	Unverified
10	LVDM (256x256, unconditional)	FVD16	552	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	MoCoGAN	FVD score	503	—	Unverified
2	Baseline (from LVT)	FVD score	320.9	—	Unverified
3	SVG-FP (from FVD)	FVD score	315.5	—	Unverified
4	CDNA (from FVD)	FVD score	296.5	—	Unverified
5	SV2P (from FVD)	FVD score	262.5	—	Unverified
6	SVG-LP (from vRNN)	FVD score	256.62	—	Unverified
7	WAM	FVD score	159.6	—	Unverified
8	VRNN 1L	FVD score	149.22	—	Unverified
9	SAVP (from vRNN)	FVD score	143.43	—	Unverified
10	Hier-VRNN	FVD score	143.4	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	MoCoGAN-HD (128x128)	FVD 16	183.6	—	Unverified
2	TATS (128x128)	FVD 16	132.6	—	Unverified
3	Long-video GAN (256x256)	FVD 16	116.5	—	Unverified
4	DIGAN (128x128)	FVD 16	114.6	—	Unverified
5	Long-video GAN (128x128)	FVD 16	107.5	—	Unverified
6	LVDM (256x256)	FVD 16	95.2	—	Unverified
7	DDMI	FVD 16	66.25	—	Unverified
8	Latte + LeanVAE	FVD 16	49.59	—	Unverified
9	StyleSV (256x256)	FVD 16	49	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	Video Diffusion Model	Inception Score	57	—	Unverified
2	TGAN-ODE	Inception Score	15.2	—	Unverified
3	TGAN-F	Inception Score	13.62	—	Unverified
4	MoCoGAN	Inception Score	12.42	—	Unverified
5	MoCoGAN-MDP	Inception Score	11.86	—	Unverified
6	TGAN-SVC	Inception Score	11.85	—	Unverified
7	VGAN	Inception Score	8.18	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	TGAN-F	Inception Score	22.91	—	Unverified
2	TGANv2	Inception Score	21.45	—	Unverified
3	TGANv2-ODE	Inception Score	21.02	—	Unverified
4	MoCoGAN	Inception Score	12.42	—	Unverified
5	MoCoGAN-MDP	Inception Score	11.86	—	Unverified
6	TGAN-SVC	Inception Score	11.85	—	Unverified
7	VGAN	Inception Score	8.18	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	Imagen original (constant=6)	CLIP R-Precision	92.12	—	Unverified
2	Imagen fully distilled (oscillate (15,1))	CLIP R-Precision	90.97	—	Unverified
3	Imagen distilled (constant=6)	CLIP R-Precision	90.88	—	Unverified
4	Imagen original (oscillate(15,1))	CLIP R-Precision	89.91	—	Unverified
5	Imagen fully distilled (constant=6)	CLIP R-Precision	89.68	—	Unverified
6	Imagen distilled (oscillate (15,1))	CLIP R-Precision	88.78	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	DIGAN (256x256)	FVD16	156.7	—	Unverified
2	MoCoGAN-HD (128x128)	FVD16	144.7	—	Unverified
3	DIGAN (128x128)	FVD16	128.1	—	Unverified
4	LVDM (256x256)	FVD16	99	—	Unverified
5	TATS (128x128)	FVD16	94.6	—	Unverified
6	StyleSV (256x256)	FVD16	82.6	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	TGANv2 (2020)	Inception Score	28.87	—	Unverified
2	DVD-GAN	Inception Score	27.38	—	Unverified
3	VideoGPT	Inception Score	24.69	—	Unverified
4	TGANv2	Inception Score	24.34	—	Unverified
5	TGAN-F	Inception Score	22.91	—	Unverified
6	TGANv2-ODE	Inception Score	21.02	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	DVD-GAN	FVD	31.1	—	Unverified
2	MAGVIT	FVD	9.9	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	INR-V	FVD16	144	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	DVD-GAN	FID	2.16	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	DVD-GAN	FID	12.92	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	DiT-XL/2 + CVAE-FT-SE	FID	8.59	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	VideoAssembler (Zero-Shot, 256x256, class-conditional)	FVD16	252	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	PG-SWGAN-3D	FID	404.1	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	StyleSV	FVD16	207.2	—	Unverified