Video Generation

( Various Video Generation Tasks. Gif credit: MaGViT )

Papers

Recently Added Most Hyped Most Active Needs Verification Most Verified

Showing 301–350 of 1466 papers

Title	Date	Tasks	Status	Hype
Unified Dense Prediction of Video Diffusion	Mar 12, 2025	PredictionVideo Generation	—Unverified	0
Reangle-A-Video: 4D Video Generation as Video-to-Video Translation	Mar 12, 2025	TranslationVideo Generation	—Unverified	0
WISA: World Simulator Assistant for Physics-Aware Text-to-Video Generation	Mar 11, 2025	Text-to-Video GenerationVideo Generation	—Unverified	0
VRMDiff: Text-Guided Video Referring Matting Generation of Diffusion	Mar 11, 2025	Image MattingVideo Alignment	CodeCode Available	1
^RFLAV: Rolling Flow matching for infinite Audio Video generation	Mar 11, 2025	Video Generation	CodeCode Available	1
ObjectMover: Generative Object Movement with Video Prior	Mar 11, 2025	Multi-Task LearningObject	—Unverified	0
Automated Movie Generation via Multi-Agent CoT Planning	Mar 10, 2025	Video Generation	CodeCode Available	3
DreamRelation: Relation-Centric Video Customization	Mar 10, 2025	RelationTriplet	—Unverified	0
AR-Diffusion: Asynchronous Video Generation with Auto-Regressive Diffusion	Mar 10, 2025	Video Generation	CodeCode Available	2
VACE: All-in-One Video Creation and Editing	Mar 10, 2025	AllHuman-Domain Subject-to-Video	CodeCode Available	7
VideoPhy-2: A Challenging Action-Centric Physical Commonsense Evaluation in Video Generation	Mar 9, 2025	Video Generation	CodeCode Available	0
A Light and Tuning-free Method for Simulating Camera Motion in Video Generation	Mar 9, 2025	DenoisingDepth Estimation	CodeCode Available	1
TR-DQ: Time-Rotation Diffusion Quantization	Mar 9, 2025	Image GenerationQuantization	—Unverified	0
Generative Video Bi-flow	Mar 9, 2025	Unconditional Video GenerationVideo Generation	CodeCode Available	0
QuantCache: Adaptive Importance-Guided Quantization with Hierarchical Latent and Layer Caching for Video Generation	Mar 9, 2025	QuantizationVideo Generation	CodeCode Available	1
Text2Story: Advancing Video Storytelling with Text Guidance	Mar 8, 2025	FormImage Generation	—Unverified	0
GSV3D: Gaussian Splatting-based Geometric Distillation with Stable Video Diffusion for Single-Image 3D Object Generation	Mar 8, 2025	3D GenerationDecoder	—Unverified	0
DropletVideo: A Dataset and Approach to Explore Integral Spatio-Temporal Consistent Video Generation	Mar 8, 2025	Video Generation	CodeCode Available	1
VACT: A Video Automatic Causal Testing System and a Benchmark	Mar 8, 2025	Large Language ModelVideo Generation	—Unverified	0
Object-Centric World Model for Language-Guided Manipulation	Mar 8, 2025	Autonomous Drivingmodel	—Unverified	0
MM-StoryAgent: Immersive Narrated Storybook Video Generation with a Multi-Agent Paradigm across Text, Image and Audio	Mar 7, 2025	Video Generation	CodeCode Available	3
Unified Reward Model for Multimodal Understanding and Generation	Mar 7, 2025	Image Generationmodel	CodeCode Available	4
MagicInfinite: Generating Infinite Talking Videos with Your Words and Voice	Mar 7, 2025	DenoisingPortrait Animation	—Unverified	0
FluidNexus: 3D Fluid Reconstruction and Prediction from a Single Video	Mar 6, 2025	Future predictionNovel View Synthesis	—Unverified	0
The Best of Both Worlds: Integrating Language Models and Diffusion Models for Video Generation	Mar 6, 2025	Semantic CompressionVideo Generation	CodeCode Available	1
Toward Lightweight and Fast Decoders for Diffusion Models in Image and Video Generation	Mar 6, 2025	DecoderGPU	CodeCode Available	1
Rethinking Video Tokenization: A Conditioned Diffusion-based Approach	Mar 5, 2025	DecoderVideo Compression	CodeCode Available	1
High-Quality Virtual Single-Viewpoint Surgical Video: Geometric Autocalibration of Multiple Cameras in Surgical Lights	Mar 5, 2025	Video Generation	CodeCode Available	0
Rethinking Video Super-Resolution: Towards Diffusion-Based Methods without Motion Alignment	Mar 5, 2025	AllSuper-Resolution	—Unverified	0
GEN3C: 3D-Informed World-Consistent Video Generation with Precise Camera Control	Mar 5, 2025	Novel View SynthesisVideo Generation	CodeCode Available	5
DualDiff+: Dual-Branch Diffusion for High-Fidelity Video Generation with Reward Guidance	Mar 5, 2025	3D Object DetectionBEV Segmentation	CodeCode Available	1
VideoUFO: A Million-Scale User-Focused Dataset for Text-to-Video Generation	Mar 3, 2025	Text-to-Video GenerationVideo Generation	CodeCode Available	0
Extrapolating and Decoupling Image-to-Video Generation Models: Motion Modeling is Easier Than You Think	Mar 2, 2025	DenoisingImage to Video Generation	CodeCode Available	1
Unified Video Action Model	Feb 28, 2025	modelPrediction	—Unverified	0
HAIC: Improving Human Action Understanding and Generation with Better Captions for Multi-modal Large Language Models	Feb 28, 2025	Action UnderstandingText-to-Video Generation	—Unverified	0
Mobius: Text to Seamless Looping Video Generation via Latent Shift	Feb 27, 2025	DenoisingVideo Generation	CodeCode Available	2
C-Drag: Chain-of-Thought Driven Motion Controller for Video Generation	Feb 27, 2025	ObjectVideo Generation	CodeCode Available	1
FlexiDiT: Your Diffusion Transformer Can Easily Generate High-Quality Samples with Less Compute	Feb 27, 2025	DenoisingImage Generation	—Unverified	0
Online Pseudo-average Shifting Attention(PASA) for Robust Low-precision LLM Inference: Algorithms and Numerical Analysis	Feb 26, 2025	Video Generation	—Unverified	0
ASurvey: Spatiotemporal Consistency in Video Generation	Feb 25, 2025	Image GenerationVideo Generation	—Unverified	0
SpargeAttention: Accurate and Training-free Sparse Attention Accelerating Any Model Inference	Feb 25, 2025	modelVideo Generation	CodeCode Available	4
VideoGrain: Modulating Space-Time Attention for Multi-grained Video Editing	Feb 24, 2025	Video EditingVideo Generation	—Unverified	0
X-Dancer: Expressive Music to Human Dance Video Generation	Feb 24, 2025	Image AnimationVideo Generation	—Unverified	0
Diffusion Models for Tabular Data: Challenges, Current Progress, and Future Directions	Feb 24, 2025	Data AugmentationImage Generation	CodeCode Available	2
RIFLEx: A Free Lunch for Length Extrapolation in Video Diffusion Transformers	Feb 21, 2025	Video Generation	—Unverified	0
Hardware-Friendly Static Quantization Method for Video Diffusion Transformers	Feb 20, 2025	QuantizationVideo Generation	—Unverified	0
RelaCtrl: Relevance-Guided Efficient Control for Diffusion Transformers	Feb 20, 2025	Text-to-Video GenerationVideo Generation	—Unverified	0
Improving the Diffusability of Autoencoders	Feb 20, 2025	DecoderImage Generation	—Unverified	0
Designing Parameter and Compute Efficient Diffusion Transformers using Distillation	Feb 20, 2025	Knowledge DistillationNVIDIA Jetson Orin Nano	—Unverified	0
VidCapBench: A Comprehensive Benchmark of Video Captioning for Controllable Text-to-Video Generation	Feb 18, 2025	Text-to-Video GenerationVideo Captioning	CodeCode Available	1

Show:10 25 50

← PrevPage 7 of 30Next →

All datasets UCF-101 BAIR Robot Pushing Sky Time-lapse UCF-101 16 frames, 64x64, Unconditional UCF-101 16 frames, Unconditional, Single GPU LAION-400M Taichi UCF-101 16 frames, 128x128, Unconditional Kinetics-600 12 frames, 64x64 How2Sign Kinetics-600 12 frames, 128x128 Kinetics-600 48 frames, 64x64

Benchmark Results

#	Model	Metric	Claimed	Verified	Status
1	MCVD	FVD16	2,460	—	Unverified
2	VDM	FVD16	1,396	—	Unverified
3	TGAN-v2 (128x128)	FVD16	1,209	—	Unverified
4	MCVD (64x64)	FVD16	1,143	—	Unverified
5	MoCoGAN-HD (256x256, unconditional)	FVD16	700	—	Unverified
6	MagicVideo (256x256, text-conditional)	FVD16	699	—	Unverified
7	TATS (256x256)	FVD16	635	—	Unverified
8	FIFO-Diffusion	FVD128	596.64	—	Unverified
9	DIGAN (128x128, unconditional)	FVD16	577	—	Unverified
10	LVDM (256x256, unconditional)	FVD16	552	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	MoCoGAN	FVD score	503	—	Unverified
2	Baseline (from LVT)	FVD score	320.9	—	Unverified
3	SVG-FP (from FVD)	FVD score	315.5	—	Unverified
4	CDNA (from FVD)	FVD score	296.5	—	Unverified
5	SV2P (from FVD)	FVD score	262.5	—	Unverified
6	SVG-LP (from vRNN)	FVD score	256.62	—	Unverified
7	WAM	FVD score	159.6	—	Unverified
8	VRNN 1L	FVD score	149.22	—	Unverified
9	SAVP (from vRNN)	FVD score	143.43	—	Unverified
10	Hier-VRNN	FVD score	143.4	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	MoCoGAN-HD (128x128)	FVD 16	183.6	—	Unverified
2	TATS (128x128)	FVD 16	132.6	—	Unverified
3	Long-video GAN (256x256)	FVD 16	116.5	—	Unverified
4	DIGAN (128x128)	FVD 16	114.6	—	Unverified
5	Long-video GAN (128x128)	FVD 16	107.5	—	Unverified
6	LVDM (256x256)	FVD 16	95.2	—	Unverified
7	DDMI	FVD 16	66.25	—	Unverified
8	Latte + LeanVAE	FVD 16	49.59	—	Unverified
9	StyleSV (256x256)	FVD 16	49	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	Video Diffusion Model	Inception Score	57	—	Unverified
2	TGAN-ODE	Inception Score	15.2	—	Unverified
3	TGAN-F	Inception Score	13.62	—	Unverified
4	MoCoGAN	Inception Score	12.42	—	Unverified
5	MoCoGAN-MDP	Inception Score	11.86	—	Unverified
6	TGAN-SVC	Inception Score	11.85	—	Unverified
7	VGAN	Inception Score	8.18	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	TGAN-F	Inception Score	22.91	—	Unverified
2	TGANv2	Inception Score	21.45	—	Unverified
3	TGANv2-ODE	Inception Score	21.02	—	Unverified
4	MoCoGAN	Inception Score	12.42	—	Unverified
5	MoCoGAN-MDP	Inception Score	11.86	—	Unverified
6	TGAN-SVC	Inception Score	11.85	—	Unverified
7	VGAN	Inception Score	8.18	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	Imagen original (constant=6)	CLIP R-Precision	92.12	—	Unverified
2	Imagen fully distilled (oscillate (15,1))	CLIP R-Precision	90.97	—	Unverified
3	Imagen distilled (constant=6)	CLIP R-Precision	90.88	—	Unverified
4	Imagen original (oscillate(15,1))	CLIP R-Precision	89.91	—	Unverified
5	Imagen fully distilled (constant=6)	CLIP R-Precision	89.68	—	Unverified
6	Imagen distilled (oscillate (15,1))	CLIP R-Precision	88.78	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	DIGAN (256x256)	FVD16	156.7	—	Unverified
2	MoCoGAN-HD (128x128)	FVD16	144.7	—	Unverified
3	DIGAN (128x128)	FVD16	128.1	—	Unverified
4	LVDM (256x256)	FVD16	99	—	Unverified
5	TATS (128x128)	FVD16	94.6	—	Unverified
6	StyleSV (256x256)	FVD16	82.6	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	TGANv2 (2020)	Inception Score	28.87	—	Unverified
2	DVD-GAN	Inception Score	27.38	—	Unverified
3	VideoGPT	Inception Score	24.69	—	Unverified
4	TGANv2	Inception Score	24.34	—	Unverified
5	TGAN-F	Inception Score	22.91	—	Unverified
6	TGANv2-ODE	Inception Score	21.02	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	DVD-GAN	FVD	31.1	—	Unverified
2	MAGVIT	FVD	9.9	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	INR-V	FVD16	144	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	DVD-GAN	FID	2.16	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	DVD-GAN	FID	12.92	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	DiT-XL/2 + CVAE-FT-SE	FID	8.59	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	VideoAssembler (Zero-Shot, 256x256, class-conditional)	FVD16	252	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	PG-SWGAN-3D	FID	404.1	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	StyleSV	FVD16	207.2	—	Unverified