Video Generation

( Various Video Generation Tasks. Gif credit: MaGViT )

Papers

Recently Added Most Hyped Most Active Needs Verification Most Verified

Showing 651–700 of 1466 papers

Title	Date	Tasks	Status
How I Warped Your Noise: a Temporally-Correlated Noise Prior for Diffusion Models	Apr 3, 2025	Video EditingVideo Generation	—Unverified
OmniCam: Unified Multimodal Video Generation via Camera Control	Apr 3, 2025	Video Generation	—Unverified
WorldPrompter: Traversable Text-to-Scene Generation	Apr 2, 2025	3D GenerationScene Generation	—Unverified
WorldScore: A Unified Evaluation Benchmark for World Generation	Apr 1, 2025	Scene GenerationVideo Generation	—Unverified
JointTuner: Appearance-Motion Adaptive Joint Training for Customized Video Generation	Mar 31, 2025	Video Generation	—Unverified
HumanDreamer: Generating Controllable Human-Motion Videos via Decoupled Generation	Mar 31, 2025	Video Generation	—Unverified
Any2Caption:Interpreting Any Condition to Caption for Controllable Video Generation	Mar 31, 2025	Video Generation	—Unverified
HOIGen-1M: A Large-scale Dataset for Human-Object Interaction Video Generation	Mar 31, 2025	HallucinationHuman-Object Interaction Detection	—Unverified
MoCha: Towards Movie-Grade Talking Character Synthesis	Mar 30, 2025	Video Generation	—Unverified
Towards Physically Plausible Video Generation via VLM Planning	Mar 30, 2025	Image to Video GenerationVideo Generation	—Unverified
JavisDiT: Joint Audio-Video Diffusion Transformer with Hierarchical Spatio-Temporal Prior Synchronization	Mar 30, 2025	Video Generation	—Unverified
SketchVideo: Sketch-based Video Generation and Editing	Mar 30, 2025	Video EditingVideo Generation	—Unverified
Zero4D: Training-Free 4D Video Generation From Single Video Using Off-the-Shelf Video Diffusion Model	Mar 28, 2025	Video Generation	—Unverified
EchoFlow: A Foundation Model for Cardiac Ultrasound Image and Video Generation	Mar 28, 2025	Medical Image AnalysisPrivacy Preserving	—Unverified
CoGen: 3D Consistent Video Generation via Adaptive Conditioning for Autonomous Driving	Mar 28, 2025	3D GenerationAutonomous Driving	—Unverified
Audio-driven Gesture Generation via Deviation Feature in the Latent Space	Mar 27, 2025	Gesture GenerationVideo Generation	—Unverified
VideoMage: Multi-Subject and Motion Customization of Text-to-Video Diffusion Models	Mar 27, 2025	Text-to-Video GenerationVideo Generation	—Unverified
ChatAnyone: Stylized Real-time Portrait Video Generation with Hierarchical Motion Diffusion Model	Mar 27, 2025	GPUVideo Generation	—Unverified
Unconditional Priors Matter! Improving Conditional Generation of Fine-Tuned Diffusion Models	Mar 26, 2025	Video Generation	—Unverified
GAIA-2: A Controllable Multi-View Generative World Model for Autonomous Driving	Mar 26, 2025	Autonomous DrivingVideo Generation	—Unverified
Protecting Your Video Content: Disrupting Automated Video-based LLM Annotations	Mar 26, 2025	DescriptiveText-to-Video Generation	CodeCode Available
Video Motion Graphs	Mar 26, 2025	Motion InterpolationVideo Frame Interpolation	—Unverified
AccidentSim: Generating Physically Realistic Vehicle Collision Videos from Real-World Accident Reports	Mar 26, 2025	Autonomous DrivingNeRF	—Unverified
RecTable: Fast Modeling Tabular Data with Rectified Flow	Mar 26, 2025	Image GenerationText to Image Generation	CodeCode Available
Synthetic Video Enhances Physical Fidelity in Video Synthesis	Mar 26, 2025	Video Generation	—Unverified
FuXi-RTM: A Physics-Guided Prediction Framework with Radiative Transfer Modeling	Mar 25, 2025	Deep LearningVideo Generation	—Unverified
FullDiT: Multi-Task Video Generative Foundation Model with Full Attention	Mar 25, 2025	Video Generation	—Unverified
AudCast: Audio-Driven Human Video Generation by Cascaded Diffusion Transformers	Mar 25, 2025	Video Generation	—Unverified
Mask^2DiT: Dual Mask-based Diffusion Transformer for Multi-Scene Long Video Generation	Mar 25, 2025	text annotationVideo Generation	—Unverified
Self-Supervised Learning of Motion Concepts by Optimizing Counterfactuals	Mar 25, 2025	counterfactualMotion Estimation	—Unverified
Zero-Shot Human-Object Interaction Synthesis with Multimodal Priors	Mar 25, 2025	DiversityHuman-Object Interaction Detection	—Unverified
Training-free Diffusion Acceleration with Bottleneck Sampling	Mar 24, 2025	DenoisingImage Generation	—Unverified
Teller: Real-Time Streaming Audio-Driven Portrait Animation with Autoregressive Motion Generation	Mar 24, 2025	Motion GenerationPortrait Animation	—Unverified
EvAnimate: Event-conditioned Image-to-Video Generation for Human Animation	Mar 24, 2025	BenchmarkingData Augmentation	—Unverified
Resource-Efficient Motion Control for Video Generation via Dynamic Mask Guidance	Mar 24, 2025	Text-to-Video GenerationVideo Editing	—Unverified
Aether: Geometric-Aware Unified World Modeling	Mar 24, 2025	Dynamic ReconstructionPrediction	—Unverified
Can Text-to-Video Generation help Video-Language Alignment?	Mar 24, 2025	Text-to-Video GenerationVideo Generation	—Unverified
Video-T1: Test-Time Scaling for Video Generation	Mar 24, 2025	DenoisingVideo Generation	—Unverified
TransAnimate: Taming Layer Diffusion to Generate RGBA Video	Mar 23, 2025	Image GenerationVideo Generation	—Unverified
LongDiff: Training-Free Long Video Generation in One Go	Mar 23, 2025	PositionVideo Generation	—Unverified
RDTF: Resource-efficient Dual-mask Training Framework for Multi-frame Animated Sticker Generation	Mar 22, 2025	Video Generation	—Unverified
Generating, Fast and Slow: Scalable Parallel Video Generation with Video Interface Networks	Mar 21, 2025	DenoisingOptical Flow Estimation	—Unverified
Enabling Versatile Controls for Video Diffusion Models	Mar 21, 2025	Text-to-Video GenerationVideo Generation	—Unverified
Position: Interactive Generative Video as Next-Generation Game Engine	Mar 21, 2025	PositionVideo Generation	—Unverified
Re-HOLD: Video Hand Object Interaction Reenactment via adaptive Layout-instructed Diffusion Model	Mar 21, 2025	DisentanglementHuman-Object Interaction Detection	—Unverified
ScalingNoise: Scaling Inference-Time Search for Generating Infinite Videos	Mar 20, 2025	DenoisingDiversity	—Unverified
MagicMotion: Controllable Video Generation with Dense-to-Sparse Trajectory Guidance	Mar 20, 2025	Image to Video GenerationObject	—Unverified
PoseTraj: Pose-Aware Trajectory Control in Video Diffusion	Mar 20, 2025	DisentanglementVideo Generation	—Unverified
VideoRFSplat: Direct Scene-Level Text-to-3D Gaussian Splatting Generation with Flexible Pose and Multi-View Joint Modeling	Mar 20, 2025	3DGSText to 3D	—Unverified
Temporal Regularization Makes Your Video Generator Stronger	Mar 19, 2025	DiversityVideo Generation	—Unverified

Show:10 25 50

← PrevPage 14 of 30Next →

All datasets UCF-101 BAIR Robot Pushing Sky Time-lapse UCF-101 16 frames, 64x64, Unconditional UCF-101 16 frames, Unconditional, Single GPU LAION-400M Taichi UCF-101 16 frames, 128x128, Unconditional Kinetics-600 12 frames, 64x64 How2Sign Kinetics-600 12 frames, 128x128 Kinetics-600 48 frames, 64x64

Benchmark Results

#	Model	Metric	Claimed	Verified	Status
1	MCVD	FVD16	2,460	—	Unverified
2	VDM	FVD16	1,396	—	Unverified
3	TGAN-v2 (128x128)	FVD16	1,209	—	Unverified
4	MCVD (64x64)	FVD16	1,143	—	Unverified
5	MoCoGAN-HD (256x256, unconditional)	FVD16	700	—	Unverified
6	MagicVideo (256x256, text-conditional)	FVD16	699	—	Unverified
7	TATS (256x256)	FVD16	635	—	Unverified
8	FIFO-Diffusion	FVD128	596.64	—	Unverified
9	DIGAN (128x128, unconditional)	FVD16	577	—	Unverified
10	LVDM (256x256, unconditional)	FVD16	552	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	MoCoGAN	FVD score	503	—	Unverified
2	Baseline (from LVT)	FVD score	320.9	—	Unverified
3	SVG-FP (from FVD)	FVD score	315.5	—	Unverified
4	CDNA (from FVD)	FVD score	296.5	—	Unverified
5	SV2P (from FVD)	FVD score	262.5	—	Unverified
6	SVG-LP (from vRNN)	FVD score	256.62	—	Unverified
7	WAM	FVD score	159.6	—	Unverified
8	VRNN 1L	FVD score	149.22	—	Unverified
9	SAVP (from vRNN)	FVD score	143.43	—	Unverified
10	Hier-VRNN	FVD score	143.4	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	MoCoGAN-HD (128x128)	FVD 16	183.6	—	Unverified
2	TATS (128x128)	FVD 16	132.6	—	Unverified
3	Long-video GAN (256x256)	FVD 16	116.5	—	Unverified
4	DIGAN (128x128)	FVD 16	114.6	—	Unverified
5	Long-video GAN (128x128)	FVD 16	107.5	—	Unverified
6	LVDM (256x256)	FVD 16	95.2	—	Unverified
7	DDMI	FVD 16	66.25	—	Unverified
8	Latte + LeanVAE	FVD 16	49.59	—	Unverified
9	StyleSV (256x256)	FVD 16	49	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	Video Diffusion Model	Inception Score	57	—	Unverified
2	TGAN-ODE	Inception Score	15.2	—	Unverified
3	TGAN-F	Inception Score	13.62	—	Unverified
4	MoCoGAN	Inception Score	12.42	—	Unverified
5	MoCoGAN-MDP	Inception Score	11.86	—	Unverified
6	TGAN-SVC	Inception Score	11.85	—	Unverified
7	VGAN	Inception Score	8.18	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	TGAN-F	Inception Score	22.91	—	Unverified
2	TGANv2	Inception Score	21.45	—	Unverified
3	TGANv2-ODE	Inception Score	21.02	—	Unverified
4	MoCoGAN	Inception Score	12.42	—	Unverified
5	MoCoGAN-MDP	Inception Score	11.86	—	Unverified
6	TGAN-SVC	Inception Score	11.85	—	Unverified
7	VGAN	Inception Score	8.18	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	Imagen original (constant=6)	CLIP R-Precision	92.12	—	Unverified
2	Imagen fully distilled (oscillate (15,1))	CLIP R-Precision	90.97	—	Unverified
3	Imagen distilled (constant=6)	CLIP R-Precision	90.88	—	Unverified
4	Imagen original (oscillate(15,1))	CLIP R-Precision	89.91	—	Unverified
5	Imagen fully distilled (constant=6)	CLIP R-Precision	89.68	—	Unverified
6	Imagen distilled (oscillate (15,1))	CLIP R-Precision	88.78	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	DIGAN (256x256)	FVD16	156.7	—	Unverified
2	MoCoGAN-HD (128x128)	FVD16	144.7	—	Unverified
3	DIGAN (128x128)	FVD16	128.1	—	Unverified
4	LVDM (256x256)	FVD16	99	—	Unverified
5	TATS (128x128)	FVD16	94.6	—	Unverified
6	StyleSV (256x256)	FVD16	82.6	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	TGANv2 (2020)	Inception Score	28.87	—	Unverified
2	DVD-GAN	Inception Score	27.38	—	Unverified
3	VideoGPT	Inception Score	24.69	—	Unverified
4	TGANv2	Inception Score	24.34	—	Unverified
5	TGAN-F	Inception Score	22.91	—	Unverified
6	TGANv2-ODE	Inception Score	21.02	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	DVD-GAN	FVD	31.1	—	Unverified
2	MAGVIT	FVD	9.9	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	INR-V	FVD16	144	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	DVD-GAN	FID	2.16	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	DVD-GAN	FID	12.92	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	DiT-XL/2 + CVAE-FT-SE	FID	8.59	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	VideoAssembler (Zero-Shot, 256x256, class-conditional)	FVD16	252	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	PG-SWGAN-3D	FID	404.1	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	StyleSV	FVD16	207.2	—	Unverified