Video Generation

( Various Video Generation Tasks. Gif credit: MaGViT )

Papers

Recently Added Most Hyped Most Active Needs Verification Most Verified

Showing 701–750 of 1466 papers

Title	Date	Tasks	Status
Temporal Regularization Makes Your Video Generator Stronger	Mar 19, 2025	DiversityVideo Generation	—Unverified
Fast Autoregressive Video Generation with Diagonal Decoding	Mar 18, 2025	Video Generation	—Unverified
MusicInfuser: Making Video Diffusion Listen and Dance	Mar 18, 2025	Video Generation	—Unverified
MagicComp: Training-free Dual-Phase Refinement for Compositional Video Generation	Mar 18, 2025	DenoisingVideo Generation	—Unverified
Impossible Videos	Mar 18, 2025	counterfactualVideo Generation	—Unverified
Frame-wise Conditioning Adaptation for Fine-Tuning Diffusion Models in Text-to-Video Prediction	Mar 17, 2025	Video GenerationVideo Prediction	CodeCode Available
AUTV: Creating Underwater Video Datasets with Pixel-wise Annotations	Mar 17, 2025	Semantic SegmentationVideo Generation	—Unverified
EQ-TAA: Equivariant Traffic Accident Anticipation via Diffusion-Based Accident Video Synthesis	Mar 16, 2025	Accident AnticipationVideo Generation	—Unverified
SPC-GS: Gaussian Splatting with Semantic-Prompt Consistency for Indoor Open-World Free-view Synthesis from Sparse Inputs	Mar 16, 2025	Semantic SegmentationVideo Generation	—Unverified
Cross-Modal Learning for Music-to-Music-Video Description Generation	Mar 14, 2025	Video DescriptionVideo Generation	—Unverified
TASTE-Rob: Advancing Video Generation of Task-Oriented Hand-Object Interaction for Generalizable Robotic Manipulation	Mar 14, 2025	Imitation LearningObject	—Unverified
HiTVideo: Hierarchical Tokenizers for Enhancing Text-to-Video Generation with Autoregressive Large Language Models	Mar 14, 2025	Text-to-Video GenerationVideo Generation	—Unverified
ReCamMaster: Camera-Controlled Generative Rendering from A Single Video	Mar 14, 2025	Super-ResolutionVideo Generation	—Unverified
Long Context Tuning for Video Generation	Mar 13, 2025	Video Generation	—Unverified
Semantic Latent Motion for Portrait Video Generation	Mar 13, 2025	DescriptiveVideo Generation	—Unverified
VideoMerge: Towards Training-free Long Video Generation	Mar 13, 2025	DenoisingVideo Generation	—Unverified
CINEMA: Coherent Multi-Subject Video Generation via MLLM-Based Guidance	Mar 13, 2025	Large Language ModelMultimodal Large Language Model	—Unverified
Other Vehicle Trajectories Are Also Needed: A Driving World Model Unifies Ego-Other Vehicle Trajectories in Video Latant Space	Mar 12, 2025	Autonomous DrivingVideo Generation	—Unverified
On the Limitations of Vision-Language Models in Understanding Image Transforms	Mar 12, 2025	Question AnsweringVideo Generation	—Unverified
Unified Dense Prediction of Video Diffusion	Mar 12, 2025	PredictionVideo Generation	—Unverified
Accelerating Diffusion Sampling via Exploiting Local Transition Coherence	Mar 12, 2025	DenoisingVideo Generation	—Unverified
Reangle-A-Video: 4D Video Generation as Video-to-Video Translation	Mar 12, 2025	TranslationVideo Generation	—Unverified
I2V3D: Controllable image-to-video generation with 3D guidance	Mar 12, 2025	3D geometryImage to Video Generation	—Unverified
LuciBot: Automated Robot Policy Learning from Generated Videos	Mar 12, 2025	Video Generation	—Unverified
ObjectMover: Generative Object Movement with Video Prior	Mar 11, 2025	Multi-Task LearningObject	—Unverified
WISA: World Simulator Assistant for Physics-Aware Text-to-Video Generation	Mar 11, 2025	Text-to-Video GenerationVideo Generation	—Unverified
DreamRelation: Relation-Centric Video Customization	Mar 10, 2025	RelationTriplet	—Unverified
TR-DQ: Time-Rotation Diffusion Quantization	Mar 9, 2025	Image GenerationQuantization	—Unverified
Generative Video Bi-flow	Mar 9, 2025	Unconditional Video GenerationVideo Generation	CodeCode Available
VideoPhy-2: A Challenging Action-Centric Physical Commonsense Evaluation in Video Generation	Mar 9, 2025	Video Generation	CodeCode Available
Text2Story: Advancing Video Storytelling with Text Guidance	Mar 8, 2025	FormImage Generation	—Unverified
Object-Centric World Model for Language-Guided Manipulation	Mar 8, 2025	Autonomous Drivingmodel	—Unverified
VACT: A Video Automatic Causal Testing System and a Benchmark	Mar 8, 2025	Large Language ModelVideo Generation	—Unverified
GSV3D: Gaussian Splatting-based Geometric Distillation with Stable Video Diffusion for Single-Image 3D Object Generation	Mar 8, 2025	3D GenerationDecoder	—Unverified
MagicInfinite: Generating Infinite Talking Videos with Your Words and Voice	Mar 7, 2025	DenoisingPortrait Animation	—Unverified
FluidNexus: 3D Fluid Reconstruction and Prediction from a Single Video	Mar 6, 2025	Future predictionNovel View Synthesis	—Unverified
Rethinking Video Super-Resolution: Towards Diffusion-Based Methods without Motion Alignment	Mar 5, 2025	AllSuper-Resolution	—Unverified
High-Quality Virtual Single-Viewpoint Surgical Video: Geometric Autocalibration of Multiple Cameras in Surgical Lights	Mar 5, 2025	Video Generation	CodeCode Available
VideoUFO: A Million-Scale User-Focused Dataset for Text-to-Video Generation	Mar 3, 2025	Text-to-Video GenerationVideo Generation	CodeCode Available
HAIC: Improving Human Action Understanding and Generation with Better Captions for Multi-modal Large Language Models	Feb 28, 2025	Action UnderstandingText-to-Video Generation	—Unverified
Unified Video Action Model	Feb 28, 2025	modelPrediction	—Unverified
FlexiDiT: Your Diffusion Transformer Can Easily Generate High-Quality Samples with Less Compute	Feb 27, 2025	DenoisingImage Generation	—Unverified
Online Pseudo-average Shifting Attention(PASA) for Robust Low-precision LLM Inference: Algorithms and Numerical Analysis	Feb 26, 2025	Video Generation	—Unverified
ASurvey: Spatiotemporal Consistency in Video Generation	Feb 25, 2025	Image GenerationVideo Generation	—Unverified
X-Dancer: Expressive Music to Human Dance Video Generation	Feb 24, 2025	Image AnimationVideo Generation	—Unverified
VideoGrain: Modulating Space-Time Attention for Multi-grained Video Editing	Feb 24, 2025	Video EditingVideo Generation	—Unverified
RIFLEx: A Free Lunch for Length Extrapolation in Video Diffusion Transformers	Feb 21, 2025	Video Generation	—Unverified
Designing Parameter and Compute Efficient Diffusion Transformers using Distillation	Feb 20, 2025	Knowledge DistillationNVIDIA Jetson Orin Nano	—Unverified
Hardware-Friendly Static Quantization Method for Video Diffusion Transformers	Feb 20, 2025	QuantizationVideo Generation	—Unverified
RelaCtrl: Relevance-Guided Efficient Control for Diffusion Transformers	Feb 20, 2025	Text-to-Video GenerationVideo Generation	—Unverified

Show:10 25 50

← PrevPage 15 of 30Next →

All datasets UCF-101 BAIR Robot Pushing Sky Time-lapse UCF-101 16 frames, 64x64, Unconditional UCF-101 16 frames, Unconditional, Single GPU LAION-400M Taichi UCF-101 16 frames, 128x128, Unconditional Kinetics-600 12 frames, 64x64 How2Sign Kinetics-600 12 frames, 128x128 Kinetics-600 48 frames, 64x64

Benchmark Results

#	Model	Metric	Claimed	Verified	Status
1	MCVD	FVD16	2,460	—	Unverified
2	VDM	FVD16	1,396	—	Unverified
3	TGAN-v2 (128x128)	FVD16	1,209	—	Unverified
4	MCVD (64x64)	FVD16	1,143	—	Unverified
5	MoCoGAN-HD (256x256, unconditional)	FVD16	700	—	Unverified
6	MagicVideo (256x256, text-conditional)	FVD16	699	—	Unverified
7	TATS (256x256)	FVD16	635	—	Unverified
8	FIFO-Diffusion	FVD128	596.64	—	Unverified
9	DIGAN (128x128, unconditional)	FVD16	577	—	Unverified
10	LVDM (256x256, unconditional)	FVD16	552	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	MoCoGAN	FVD score	503	—	Unverified
2	Baseline (from LVT)	FVD score	320.9	—	Unverified
3	SVG-FP (from FVD)	FVD score	315.5	—	Unverified
4	CDNA (from FVD)	FVD score	296.5	—	Unverified
5	SV2P (from FVD)	FVD score	262.5	—	Unverified
6	SVG-LP (from vRNN)	FVD score	256.62	—	Unverified
7	WAM	FVD score	159.6	—	Unverified
8	VRNN 1L	FVD score	149.22	—	Unverified
9	SAVP (from vRNN)	FVD score	143.43	—	Unverified
10	Hier-VRNN	FVD score	143.4	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	MoCoGAN-HD (128x128)	FVD 16	183.6	—	Unverified
2	TATS (128x128)	FVD 16	132.6	—	Unverified
3	Long-video GAN (256x256)	FVD 16	116.5	—	Unverified
4	DIGAN (128x128)	FVD 16	114.6	—	Unverified
5	Long-video GAN (128x128)	FVD 16	107.5	—	Unverified
6	LVDM (256x256)	FVD 16	95.2	—	Unverified
7	DDMI	FVD 16	66.25	—	Unverified
8	Latte + LeanVAE	FVD 16	49.59	—	Unverified
9	StyleSV (256x256)	FVD 16	49	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	Video Diffusion Model	Inception Score	57	—	Unverified
2	TGAN-ODE	Inception Score	15.2	—	Unverified
3	TGAN-F	Inception Score	13.62	—	Unverified
4	MoCoGAN	Inception Score	12.42	—	Unverified
5	MoCoGAN-MDP	Inception Score	11.86	—	Unverified
6	TGAN-SVC	Inception Score	11.85	—	Unverified
7	VGAN	Inception Score	8.18	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	TGAN-F	Inception Score	22.91	—	Unverified
2	TGANv2	Inception Score	21.45	—	Unverified
3	TGANv2-ODE	Inception Score	21.02	—	Unverified
4	MoCoGAN	Inception Score	12.42	—	Unverified
5	MoCoGAN-MDP	Inception Score	11.86	—	Unverified
6	TGAN-SVC	Inception Score	11.85	—	Unverified
7	VGAN	Inception Score	8.18	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	Imagen original (constant=6)	CLIP R-Precision	92.12	—	Unverified
2	Imagen fully distilled (oscillate (15,1))	CLIP R-Precision	90.97	—	Unverified
3	Imagen distilled (constant=6)	CLIP R-Precision	90.88	—	Unverified
4	Imagen original (oscillate(15,1))	CLIP R-Precision	89.91	—	Unverified
5	Imagen fully distilled (constant=6)	CLIP R-Precision	89.68	—	Unverified
6	Imagen distilled (oscillate (15,1))	CLIP R-Precision	88.78	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	DIGAN (256x256)	FVD16	156.7	—	Unverified
2	MoCoGAN-HD (128x128)	FVD16	144.7	—	Unverified
3	DIGAN (128x128)	FVD16	128.1	—	Unverified
4	LVDM (256x256)	FVD16	99	—	Unverified
5	TATS (128x128)	FVD16	94.6	—	Unverified
6	StyleSV (256x256)	FVD16	82.6	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	TGANv2 (2020)	Inception Score	28.87	—	Unverified
2	DVD-GAN	Inception Score	27.38	—	Unverified
3	VideoGPT	Inception Score	24.69	—	Unverified
4	TGANv2	Inception Score	24.34	—	Unverified
5	TGAN-F	Inception Score	22.91	—	Unverified
6	TGANv2-ODE	Inception Score	21.02	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	DVD-GAN	FVD	31.1	—	Unverified
2	MAGVIT	FVD	9.9	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	INR-V	FVD16	144	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	DVD-GAN	FID	2.16	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	DVD-GAN	FID	12.92	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	DiT-XL/2 + CVAE-FT-SE	FID	8.59	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	VideoAssembler (Zero-Shot, 256x256, class-conditional)	FVD16	252	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	PG-SWGAN-3D	FID	404.1	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	StyleSV	FVD16	207.2	—	Unverified