Video Generation

( Various Video Generation Tasks. Gif credit: MaGViT )

Papers

Recently Added Most Hyped Most Active Needs Verification Most Verified

Showing 251–300 of 1466 papers

Title	Date	Tasks	Status	Hype
Teller: Real-Time Streaming Audio-Driven Portrait Animation with Autoregressive Motion Generation	Mar 24, 2025	Motion GenerationPortrait Animation	—Unverified	0
Can Text-to-Video Generation help Video-Language Alignment?	Mar 24, 2025	Text-to-Video GenerationVideo Generation	—Unverified	0
EvAnimate: Event-conditioned Image-to-Video Generation for Human Animation	Mar 24, 2025	BenchmarkingData Augmentation	—Unverified	0
Aether: Geometric-Aware Unified World Modeling	Mar 24, 2025	Dynamic ReconstructionPrediction	—Unverified	0
LongDiff: Training-Free Long Video Generation in One Go	Mar 23, 2025	PositionVideo Generation	—Unverified	0
TransAnimate: Taming Layer Diffusion to Generate RGBA Video	Mar 23, 2025	Image GenerationVideo Generation	—Unverified	0
RDTF: Resource-efficient Dual-mask Training Framework for Multi-frame Animated Sticker Generation	Mar 22, 2025	Video Generation	—Unverified	0
Position: Interactive Generative Video as Next-Generation Game Engine	Mar 21, 2025	PositionVideo Generation	—Unverified	0
Decouple and Track: Benchmarking and Improving Video Diffusion Transformers for Motion Transfer	Mar 21, 2025	BenchmarkingVideo Generation	CodeCode Available	2
Enabling Versatile Controls for Video Diffusion Models	Mar 21, 2025	Text-to-Video GenerationVideo Generation	—Unverified	0
Generating, Fast and Slow: Scalable Parallel Video Generation with Video Interface Networks	Mar 21, 2025	DenoisingOptical Flow Estimation	—Unverified	0
Re-HOLD: Video Hand Object Interaction Reenactment via adaptive Layout-instructed Diffusion Model	Mar 21, 2025	DisentanglementHuman-Object Interaction Detection	—Unverified	0
MiLA: Multi-view Intensive-fidelity Long-term Video Generation World Model for Autonomous Driving	Mar 20, 2025	Autonomous DrivingDenoising	CodeCode Available	1
ScalingNoise: Scaling Inference-Time Search for Generating Infinite Videos	Mar 20, 2025	DenoisingDiversity	—Unverified	0
PoseTraj: Pose-Aware Trajectory Control in Video Diffusion	Mar 20, 2025	DisentanglementVideo Generation	—Unverified	0
VideoRFSplat: Direct Scene-Level Text-to-3D Gaussian Splatting Generation with Flexible Pose and Multi-View Joint Modeling	Mar 20, 2025	3DGSText to 3D	—Unverified	0
XAttention: Block Sparse Attention with Antidiagonal Scoring	Mar 20, 2025	Video GenerationVideo Understanding	CodeCode Available	3
MagicMotion: Controllable Video Generation with Dense-to-Sparse Trajectory Guidance	Mar 20, 2025	Image to Video GenerationObject	—Unverified	0
VideoGen-of-Thought: Step-by-step generating multi-shot video with minimal manual intervention	Mar 19, 2025	Video Generation	—Unverified	0
Temporal Regularization Makes Your Video Generator Stronger	Mar 19, 2025	DiversityVideo Generation	—Unverified	0
MusicInfuser: Making Video Diffusion Listen and Dance	Mar 18, 2025	Video Generation	—Unverified	0
Fast Autoregressive Video Generation with Diagonal Decoding	Mar 18, 2025	Video Generation	—Unverified	0
Concat-ID: Towards Universal Identity-Preserving Video Synthesis	Mar 18, 2025	Human-Domain Subject-to-VideoVideo Generation	CodeCode Available	2
AIGVE-Tool: AI-Generated Video Evaluation Toolkit with Multifaceted Benchmark	Mar 18, 2025	Video Generation	CodeCode Available	1
LeanVAE: An Ultra-Efficient Reconstruction VAE for Video Diffusion Models	Mar 18, 2025	compressed sensingVideo Generation	CodeCode Available	2
MagicComp: Training-free Dual-Phase Refinement for Compositional Video Generation	Mar 18, 2025	DenoisingVideo Generation	—Unverified	0
Impossible Videos	Mar 18, 2025	counterfactualVideo Generation	—Unverified	0
AUTV: Creating Underwater Video Datasets with Pixel-wise Annotations	Mar 17, 2025	Semantic SegmentationVideo Generation	—Unverified	0
Frame-wise Conditioning Adaptation for Fine-Tuning Diffusion Models in Text-to-Video Prediction	Mar 17, 2025	Video GenerationVideo Prediction	CodeCode Available	0
EQ-TAA: Equivariant Traffic Accident Anticipation via Diffusion-Based Accident Video Synthesis	Mar 16, 2025	Accident AnticipationVideo Generation	—Unverified	0
SPC-GS: Gaussian Splatting with Semantic-Prompt Consistency for Indoor Open-World Free-view Synthesis from Sparse Inputs	Mar 16, 2025	Semantic SegmentationVideo Generation	—Unverified	0
SteerX: Creating Any Camera-Free 3D and 4D Scenes with Geometric Steering	Mar 15, 2025	Scene GenerationVideo Generation	CodeCode Available	2
Step-Video-TI2V Technical Report: A State-of-the-Art Text-Driven Image-to-Video Generation Model	Mar 14, 2025	Image to Video GenerationVideo Generation	CodeCode Available	3
HiTVideo: Hierarchical Tokenizers for Enhancing Text-to-Video Generation with Autoregressive Large Language Models	Mar 14, 2025	Text-to-Video GenerationVideo Generation	—Unverified	0
ReCamMaster: Camera-Controlled Generative Rendering from A Single Video	Mar 14, 2025	Super-ResolutionVideo Generation	—Unverified	0
TASTE-Rob: Advancing Video Generation of Task-Oriented Hand-Object Interaction for Generalizable Robotic Manipulation	Mar 14, 2025	Imitation LearningObject	—Unverified	0
Cross-Modal Learning for Music-to-Music-Video Description Generation	Mar 14, 2025	Video DescriptionVideo Generation	—Unverified	0
VideoMerge: Towards Training-free Long Video Generation	Mar 13, 2025	DenoisingVideo Generation	—Unverified	0
CINEMA: Coherent Multi-Subject Video Generation via MLLM-Based Guidance	Mar 13, 2025	Large Language ModelMultimodal Large Language Model	—Unverified	0
VMBench: A Benchmark for Perception-Aligned Video Motion Generation	Mar 13, 2025	Motion GenerationVideo Generation	CodeCode Available	2
Long Context Tuning for Video Generation	Mar 13, 2025	Video Generation	—Unverified	0
Semantic Latent Motion for Portrait Video Generation	Mar 13, 2025	DescriptiveVideo Generation	—Unverified	0
Neighboring Autoregressive Modeling for Efficient Visual Generation	Mar 12, 2025	Image GenerationText to Image Generation	CodeCode Available	2
On the Limitations of Vision-Language Models in Understanding Image Transforms	Mar 12, 2025	Question AnsweringVideo Generation	—Unverified	0
Accelerating Diffusion Sampling via Exploiting Local Transition Coherence	Mar 12, 2025	DenoisingVideo Generation	—Unverified	0
LuciBot: Automated Robot Policy Learning from Generated Videos	Mar 12, 2025	Video Generation	—Unverified	0
I2V3D: Controllable image-to-video generation with 3D guidance	Mar 12, 2025	3D geometryImage to Video Generation	—Unverified	0
PISA Experiments: Exploring Physics Post-Training for Video Diffusion Models by Watching Stuff Drop	Mar 12, 2025	DiagnosticVideo Generation	CodeCode Available	2
Other Vehicle Trajectories Are Also Needed: A Driving World Model Unifies Ego-Other Vehicle Trajectories in Video Latant Space	Mar 12, 2025	Autonomous DrivingVideo Generation	—Unverified	0
Unified Dense Prediction of Video Diffusion	Mar 12, 2025	PredictionVideo Generation	—Unverified	0

Show:10 25 50

← PrevPage 6 of 30Next →

All datasets UCF-101 BAIR Robot Pushing Sky Time-lapse UCF-101 16 frames, 64x64, Unconditional UCF-101 16 frames, Unconditional, Single GPU LAION-400M Taichi UCF-101 16 frames, 128x128, Unconditional Kinetics-600 12 frames, 64x64 How2Sign Kinetics-600 12 frames, 128x128 Kinetics-600 48 frames, 64x64

Benchmark Results

#	Model	Metric	Claimed	Verified	Status
1	MCVD	FVD16	2,460	—	Unverified
2	VDM	FVD16	1,396	—	Unverified
3	TGAN-v2 (128x128)	FVD16	1,209	—	Unverified
4	MCVD (64x64)	FVD16	1,143	—	Unverified
5	MoCoGAN-HD (256x256, unconditional)	FVD16	700	—	Unverified
6	MagicVideo (256x256, text-conditional)	FVD16	699	—	Unverified
7	TATS (256x256)	FVD16	635	—	Unverified
8	FIFO-Diffusion	FVD128	596.64	—	Unverified
9	DIGAN (128x128, unconditional)	FVD16	577	—	Unverified
10	LVDM (256x256, unconditional)	FVD16	552	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	MoCoGAN	FVD score	503	—	Unverified
2	Baseline (from LVT)	FVD score	320.9	—	Unverified
3	SVG-FP (from FVD)	FVD score	315.5	—	Unverified
4	CDNA (from FVD)	FVD score	296.5	—	Unverified
5	SV2P (from FVD)	FVD score	262.5	—	Unverified
6	SVG-LP (from vRNN)	FVD score	256.62	—	Unverified
7	WAM	FVD score	159.6	—	Unverified
8	VRNN 1L	FVD score	149.22	—	Unverified
9	SAVP (from vRNN)	FVD score	143.43	—	Unverified
10	Hier-VRNN	FVD score	143.4	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	MoCoGAN-HD (128x128)	FVD 16	183.6	—	Unverified
2	TATS (128x128)	FVD 16	132.6	—	Unverified
3	Long-video GAN (256x256)	FVD 16	116.5	—	Unverified
4	DIGAN (128x128)	FVD 16	114.6	—	Unverified
5	Long-video GAN (128x128)	FVD 16	107.5	—	Unverified
6	LVDM (256x256)	FVD 16	95.2	—	Unverified
7	DDMI	FVD 16	66.25	—	Unverified
8	Latte + LeanVAE	FVD 16	49.59	—	Unverified
9	StyleSV (256x256)	FVD 16	49	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	Video Diffusion Model	Inception Score	57	—	Unverified
2	TGAN-ODE	Inception Score	15.2	—	Unverified
3	TGAN-F	Inception Score	13.62	—	Unverified
4	MoCoGAN	Inception Score	12.42	—	Unverified
5	MoCoGAN-MDP	Inception Score	11.86	—	Unverified
6	TGAN-SVC	Inception Score	11.85	—	Unverified
7	VGAN	Inception Score	8.18	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	TGAN-F	Inception Score	22.91	—	Unverified
2	TGANv2	Inception Score	21.45	—	Unverified
3	TGANv2-ODE	Inception Score	21.02	—	Unverified
4	MoCoGAN	Inception Score	12.42	—	Unverified
5	MoCoGAN-MDP	Inception Score	11.86	—	Unverified
6	TGAN-SVC	Inception Score	11.85	—	Unverified
7	VGAN	Inception Score	8.18	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	Imagen original (constant=6)	CLIP R-Precision	92.12	—	Unverified
2	Imagen fully distilled (oscillate (15,1))	CLIP R-Precision	90.97	—	Unverified
3	Imagen distilled (constant=6)	CLIP R-Precision	90.88	—	Unverified
4	Imagen original (oscillate(15,1))	CLIP R-Precision	89.91	—	Unverified
5	Imagen fully distilled (constant=6)	CLIP R-Precision	89.68	—	Unverified
6	Imagen distilled (oscillate (15,1))	CLIP R-Precision	88.78	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	DIGAN (256x256)	FVD16	156.7	—	Unverified
2	MoCoGAN-HD (128x128)	FVD16	144.7	—	Unverified
3	DIGAN (128x128)	FVD16	128.1	—	Unverified
4	LVDM (256x256)	FVD16	99	—	Unverified
5	TATS (128x128)	FVD16	94.6	—	Unverified
6	StyleSV (256x256)	FVD16	82.6	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	TGANv2 (2020)	Inception Score	28.87	—	Unverified
2	DVD-GAN	Inception Score	27.38	—	Unverified
3	VideoGPT	Inception Score	24.69	—	Unverified
4	TGANv2	Inception Score	24.34	—	Unverified
5	TGAN-F	Inception Score	22.91	—	Unverified
6	TGANv2-ODE	Inception Score	21.02	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	DVD-GAN	FVD	31.1	—	Unverified
2	MAGVIT	FVD	9.9	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	INR-V	FVD16	144	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	DVD-GAN	FID	2.16	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	DVD-GAN	FID	12.92	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	DiT-XL/2 + CVAE-FT-SE	FID	8.59	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	VideoAssembler (Zero-Shot, 256x256, class-conditional)	FVD16	252	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	PG-SWGAN-3D	FID	404.1	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	StyleSV	FVD16	207.2	—	Unverified