Video Generation

( Various Video Generation Tasks. Gif credit: MaGViT )

Papers

Recently Added Most Hyped Most Active Needs Verification Most Verified

Showing 851–900 of 1466 papers

Title	Date	Tasks	Status
Large Motion Video Autoencoding with Cross-modal Video VAE	Dec 23, 2024	Video Generation	—Unverified
SubstationAI: Multimodal Large Model-Based Approaches for Analyzing Substation Equipment Faults	Dec 22, 2024	Data AugmentationFault Diagnosis	—Unverified
Adapting Image-to-Video Diffusion Models for Large-Motion Frame Interpolation	Dec 22, 2024	Video Frame InterpolationVideo Generation	—Unverified
VAST 1.0: A Unified Framework for Controllable and Consistent Video Generation	Dec 21, 2024	Video Generation	—Unverified
Follow-Your-MultiPose: Tuning-Free Multi-Character Text-to-Video Generation via Pose Guidance	Dec 21, 2024	Text-to-Video GenerationVideo Generation	—Unverified
TCAQ-DM: Timestep-Channel Adaptive Quantization for Diffusion Models	Dec 21, 2024	QuantizationVideo Generation	—Unverified
DOLLAR: Few-Step Video Generation via Distillation and Latent Reward Optimization	Dec 20, 2024	Computational EfficiencyDiversity	—Unverified
CustomTTT: Motion and Appearance Customized Video Generation via Test-Time Training	Dec 20, 2024	parameter-efficient fine-tuningVideo Generation	CodeCode Available
Consistent Human Image and Video Generation with Spatially Conditioned Diffusion	Dec 19, 2024	Computational EfficiencyDenoising	CodeCode Available
AV-Link: Temporally-Aligned Diffusion Features for Cross-Modal Audio-Video Generation	Dec 19, 2024	Video GenerationVideo Synchronization	—Unverified
Parallelized Autoregressive Visual Generation	Dec 19, 2024	Video Generation	—Unverified
DirectorLLM for Human-Centric Video Generation	Dec 19, 2024	Language ModelingLanguage Modelling	—Unverified
VideoDPO: Omni-Preference Alignment for Video Diffusion Generation	Dec 18, 2024	Image GenerationText-to-Video Generation	—Unverified
FlexCache: Flexible Approximate Cache System for Video Diffusion	Dec 18, 2024	Video Generation	—Unverified
SurgSora: Object-Aware Diffusion Model for Controllable Surgical Video Generation	Dec 18, 2024	Optical Flow EstimationVideo Generation	—Unverified
AKiRa: Augmentation Kit on Rays for optical video generation	Dec 18, 2024	Video Generation	—Unverified
ManiVideo: Generating Hand-Object Manipulation Video with Dexterous and Generalizable Grasping	Dec 18, 2024	ObjectVideo Generation	—Unverified
CompactFlowNet: Efficient Real-time Optical Flow Estimation on Mobile Devices	Dec 17, 2024	Action RecognitionMotion Estimation	—Unverified
MotionBridge: Dynamic Video Inbetweening with Flexible Controls	Dec 17, 2024	Video EditingVideo Generation	—Unverified
Is Your World Simulator a Good Story Presenter? A Consecutive Events-Based Benchmark for Future Long Video Generation	Dec 17, 2024	Story CompletionVideo Generation	—Unverified
InterDyn: Controllable Interactive Dynamics with Video Diffusion Models	Dec 16, 2024	Video Generation	—Unverified
Can video generation replace cinematographers? Research on the cinematic language of generated video	Dec 16, 2024	Video Generation	—Unverified
VG-TVP: Multimodal Procedural Planning via Visually Grounded Text-Video Prompting	Dec 16, 2024	InformativenessLarge Language Model	CodeCode Available
DynamicScaler: Seamless and Scalable Video Generation for Panoramic Scenes	Dec 15, 2024	DenoisingVideo Generation	—Unverified
GenLit: Reformulating Single-Image Relighting as Video Generation	Dec 15, 2024	Image GenerationImage Relighting	—Unverified
MSC: Multi-Scale Spatio-Temporal Causal Attention for Autoregressive Video Diffusion	Dec 13, 2024	Video Generation	—Unverified
TIV-Diffusion: Towards Object-Centric Movement for Text-driven Image to Video Generation	Dec 13, 2024	Image to Video GenerationObject	—Unverified
LinGen: Towards High-Resolution Minute-Length Text-to-Video Generation with Linear Computational Complexity	Dec 13, 2024	GPUMamba	—Unverified
SnapGen-V: Generating a Five-Second Video within Five Seconds on a Mobile Device	Dec 13, 2024	DenoisingImage Generation	—Unverified
Mojito: Motion Trajectory and Intensity Control for Video Generation	Dec 12, 2024	Computational EfficiencyOptical Flow Estimation	—Unverified
InstanceCap: Improving Text-to-Video Generation via Instance-aware Structured Caption	Dec 12, 2024	Text-to-Video GenerationVideo Generation	—Unverified
Video Creation by Demonstration	Dec 12, 2024	Video Generation	—Unverified
T-SVG: Text-Driven Stereoscopic Video Generation	Dec 12, 2024	Depth EstimationText-to-Video Generation	—Unverified
Enhancing Facial Consistency in Conditional Video Generation via Facial Landmark Transformation	Dec 12, 2024	Video Generation	—Unverified
OmniDrag: Enabling Motion Control for Omnidirectional Image-to-Video Generation	Dec 12, 2024	Image to Video GenerationVideo Generation	—Unverified
LiftImage3D: Lifting Any Single Image to 3D Gaussians with Video Generation Priors	Dec 12, 2024	3D ReconstructionImage to 3D	—Unverified
UFO: Enhancing Diffusion-Based Video Generation with a Uniform Frame Organizer	Dec 12, 2024	Video Generation	CodeCode Available
FLIP: Flow-Centric Generative Planning as General-Purpose Manipulation World Model	Dec 11, 2024	Representation LearningVideo Generation	—Unverified
SweetTokenizer: Semantic-Aware Spatial-Temporal Tokenizer for Compact Visual Discretization	Dec 11, 2024	Image ReconstructionRepresentation Learning	—Unverified
Physical Informed Driving World Model	Dec 11, 2024	3D Object DetectionAutonomous Driving	—Unverified
Multi-Shot Character Consistency for Text-to-Video Generation	Dec 10, 2024	Text-to-Video GenerationVideo Generation	—Unverified
UniReal: Universal Image Generation and Editing via Learning Real-world Dynamics	Dec 10, 2024	Image GenerationVideo Generation	—Unverified
StyleMaster: Stylize Your Video with Artistic Generation and Translation	Dec 10, 2024	Contrastive LearningStyle Transfer	—Unverified
STIV: Scalable Text and Image Conditioned Video Generation	Dec 10, 2024	Video GenerationVideo Prediction	—Unverified
From Slow Bidirectional to Fast Autoregressive Video Diffusion Models	Dec 10, 2024	GPUVideo Generation	—Unverified
3DTrajMaster: Mastering 3D Trajectory for Multi-Entity Motion in Video Generation	Dec 10, 2024	Video Generation	—Unverified
SafeWatch: An Efficient Safety-Policy Following Video Guardrail Model with Transparent Explanations	Dec 9, 2024	Video Generation	—Unverified
MotionStone: Decoupled Motion Intensity Modulation with Diffusion Transformer for Image-to-Video Generation	Dec 8, 2024	Contrastive LearningImage to Video Generation	—Unverified
Track4Gen: Teaching Video Diffusion Models to Track Points Improves Video Generation	Dec 8, 2024	Point TrackingVideo Generation	—Unverified
Accelerating Video Diffusion Models via Distribution Matching	Dec 8, 2024	DenoisingVideo Generation	—Unverified

Show:10 25 50

← PrevPage 18 of 30Next →

All datasets UCF-101 BAIR Robot Pushing Sky Time-lapse UCF-101 16 frames, 64x64, Unconditional UCF-101 16 frames, Unconditional, Single GPU LAION-400M Taichi UCF-101 16 frames, 128x128, Unconditional Kinetics-600 12 frames, 64x64 How2Sign Kinetics-600 12 frames, 128x128 Kinetics-600 48 frames, 64x64

Benchmark Results

#	Model	Metric	Claimed	Verified	Status
1	MCVD	FVD16	2,460	—	Unverified
2	VDM	FVD16	1,396	—	Unverified
3	TGAN-v2 (128x128)	FVD16	1,209	—	Unverified
4	MCVD (64x64)	FVD16	1,143	—	Unverified
5	MoCoGAN-HD (256x256, unconditional)	FVD16	700	—	Unverified
6	MagicVideo (256x256, text-conditional)	FVD16	699	—	Unverified
7	TATS (256x256)	FVD16	635	—	Unverified
8	FIFO-Diffusion	FVD128	596.64	—	Unverified
9	DIGAN (128x128, unconditional)	FVD16	577	—	Unverified
10	LVDM (256x256, unconditional)	FVD16	552	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	MoCoGAN	FVD score	503	—	Unverified
2	Baseline (from LVT)	FVD score	320.9	—	Unverified
3	SVG-FP (from FVD)	FVD score	315.5	—	Unverified
4	CDNA (from FVD)	FVD score	296.5	—	Unverified
5	SV2P (from FVD)	FVD score	262.5	—	Unverified
6	SVG-LP (from vRNN)	FVD score	256.62	—	Unverified
7	WAM	FVD score	159.6	—	Unverified
8	VRNN 1L	FVD score	149.22	—	Unverified
9	SAVP (from vRNN)	FVD score	143.43	—	Unverified
10	Hier-VRNN	FVD score	143.4	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	MoCoGAN-HD (128x128)	FVD 16	183.6	—	Unverified
2	TATS (128x128)	FVD 16	132.6	—	Unverified
3	Long-video GAN (256x256)	FVD 16	116.5	—	Unverified
4	DIGAN (128x128)	FVD 16	114.6	—	Unverified
5	Long-video GAN (128x128)	FVD 16	107.5	—	Unverified
6	LVDM (256x256)	FVD 16	95.2	—	Unverified
7	DDMI	FVD 16	66.25	—	Unverified
8	Latte + LeanVAE	FVD 16	49.59	—	Unverified
9	StyleSV (256x256)	FVD 16	49	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	Video Diffusion Model	Inception Score	57	—	Unverified
2	TGAN-ODE	Inception Score	15.2	—	Unverified
3	TGAN-F	Inception Score	13.62	—	Unverified
4	MoCoGAN	Inception Score	12.42	—	Unverified
5	MoCoGAN-MDP	Inception Score	11.86	—	Unverified
6	TGAN-SVC	Inception Score	11.85	—	Unverified
7	VGAN	Inception Score	8.18	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	TGAN-F	Inception Score	22.91	—	Unverified
2	TGANv2	Inception Score	21.45	—	Unverified
3	TGANv2-ODE	Inception Score	21.02	—	Unverified
4	MoCoGAN	Inception Score	12.42	—	Unverified
5	MoCoGAN-MDP	Inception Score	11.86	—	Unverified
6	TGAN-SVC	Inception Score	11.85	—	Unverified
7	VGAN	Inception Score	8.18	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	Imagen original (constant=6)	CLIP R-Precision	92.12	—	Unverified
2	Imagen fully distilled (oscillate (15,1))	CLIP R-Precision	90.97	—	Unverified
3	Imagen distilled (constant=6)	CLIP R-Precision	90.88	—	Unverified
4	Imagen original (oscillate(15,1))	CLIP R-Precision	89.91	—	Unverified
5	Imagen fully distilled (constant=6)	CLIP R-Precision	89.68	—	Unverified
6	Imagen distilled (oscillate (15,1))	CLIP R-Precision	88.78	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	DIGAN (256x256)	FVD16	156.7	—	Unverified
2	MoCoGAN-HD (128x128)	FVD16	144.7	—	Unverified
3	DIGAN (128x128)	FVD16	128.1	—	Unverified
4	LVDM (256x256)	FVD16	99	—	Unverified
5	TATS (128x128)	FVD16	94.6	—	Unverified
6	StyleSV (256x256)	FVD16	82.6	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	TGANv2 (2020)	Inception Score	28.87	—	Unverified
2	DVD-GAN	Inception Score	27.38	—	Unverified
3	VideoGPT	Inception Score	24.69	—	Unverified
4	TGANv2	Inception Score	24.34	—	Unverified
5	TGAN-F	Inception Score	22.91	—	Unverified
6	TGANv2-ODE	Inception Score	21.02	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	DVD-GAN	FVD	31.1	—	Unverified
2	MAGVIT	FVD	9.9	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	INR-V	FVD16	144	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	DVD-GAN	FID	2.16	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	DVD-GAN	FID	12.92	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	DiT-XL/2 + CVAE-FT-SE	FID	8.59	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	VideoAssembler (Zero-Shot, 256x256, class-conditional)	FVD16	252	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	PG-SWGAN-3D	FID	404.1	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	StyleSV	FVD16	207.2	—	Unverified