Video Generation

( Various Video Generation Tasks. Gif credit: MaGViT )

Papers

Recently Added Most Hyped Most Active Needs Verification Most Verified

Showing 751–800 of 1466 papers

Title	Date	Tasks	Status
Improving the Diffusability of Autoencoders	Feb 20, 2025	DecoderImage Generation	—Unverified
MALT Diffusion: Memory-Augmented Latent Transformers for Any-Length Video Generation	Feb 18, 2025	Text-to-Video GenerationVideo Generation	—Unverified
LLMPopcorn: An Empirical Study of LLMs as Assistants for Popular Micro-video Generation	Feb 18, 2025	BenchmarkingText Generation	—Unverified
MaskFlow: Discrete Flows For Flexible and Efficient Long Video Generation	Feb 16, 2025	Video Generation	—Unverified
RealCam-I2V: Real-World Image-to-Video Generation with Interactive Complex Camera Control	Feb 14, 2025	3D Scene ReconstructionDepth Estimation	—Unverified
GEVRM: Goal-Expressive Video Generation Model For Robust Visual Manipulation	Feb 13, 2025	Contrastive LearningVideo Generation	—Unverified
CineMaster: A 3D-Aware and Controllable Framework for Cinematic Text-to-Video Generation	Feb 12, 2025	ObjectText-to-Video Generation	—Unverified
AnyCharV: Bootstrap Controllable Character Video Generation with Fine-to-Coarse Guidance	Feb 12, 2025	Video Generation	—Unverified
FloVD: Optical Flow Meets Video Diffusion Model for Enhanced Camera-Controlled Video Synthesis	Feb 12, 2025	Motion SynthesisOptical Flow Estimation	—Unverified
Articulate That Object Part (ATOP): 3D Part Articulation from Text and Motion Personalization	Feb 11, 2025	Image GenerationMotion Generation	—Unverified
Generative Ghost: Investigating Ranking Bias Hidden in AI-Generated Videos	Feb 11, 2025	Contrastive LearningImage Retrieval	—Unverified
Contextual Gesture: Co-Speech Gesture Video Generation through Context-aware Gesture Representation	Feb 11, 2025	Gesture GenerationVideo Generation	—Unverified
VidCRAFT3: Camera, Object, and Lighting Control for Image-to-Video Generation	Feb 11, 2025	Image to Video GenerationObject	—Unverified
Magic 1-For-1: Generating One Minute Video Clips within One Minute	Feb 11, 2025	Image GenerationImage to Video Generation	CodeCode Available
Next Block Prediction: Video Generation via Semi-Auto-Regressive Modeling	Feb 11, 2025	Video Generation	—Unverified
CustomVideoX: 3D Reference Attention Driven Dynamic Adaptation for Zero-Shot Customized Video Diffusion Transformers	Feb 10, 2025	Image GenerationVideo Generation	—Unverified
Señorita-2M: A High-Quality Instruction-based Dataset for General Video Editing by Video Specialists	Feb 10, 2025	Video EditingVideo Generation	—Unverified
A Physical Coherence Benchmark for Evaluating Video Generation Models via Optical Flow-guided Frame Prediction	Feb 8, 2025	Model OptimizationOptical Flow Estimation	CodeCode Available
HumanDiT: Pose-Guided Diffusion Transformer for Long-form Human Motion Video Generation	Feb 7, 2025	FormPose Transfer	—Unverified
UniCP: A Unified Caching and Pruning Framework for Efficient Video Generation	Feb 6, 2025	Computational EfficiencyVideo Generation	—Unverified
Learning Real-World Action-Video Dynamics with Heterogeneous Masked Autoregression	Feb 6, 2025	Computational EfficiencyVideo Generation	—Unverified
UniForm: A Unified Multi-Task Diffusion Transformer for Audio-Video Generation	Feb 6, 2025	Audio GenerationDiversity	—Unverified
MotionCanvas: Cinematic Shot Design with Controllable Image-to-Video Generation	Feb 6, 2025	Image to Video GenerationVideo Editing	—Unverified
Towards Physical Understanding in Video Generation: A 3D Point Regularization Approach	Feb 5, 2025	Video Generation	—Unverified
MotionAgent: Fine-grained Controllable Video Generation via Motion Field Agent	Feb 5, 2025	Image to Video GenerationMotion Generation	—Unverified
FreqPrior: Improving Video Diffusion Models with Frequency Filtering Gaussian Noise	Feb 5, 2025	Video Generation	—Unverified
Harness Local Rewards for Global Benefits: Effective Text-to-Video Generation Alignment with Patch-level Reward Models	Feb 4, 2025	Text-to-Video GenerationVideo Generation	—Unverified
IPO: Iterative Preference Optimization for Text-to-Video Generation	Feb 4, 2025	Large Language ModelText-to-Video Generation	—Unverified
VideoJAM: Joint Appearance-Motion Representations for Enhanced Motion Generation in Video Models	Feb 4, 2025	Motion Generationmotion prediction	—Unverified
OmniHuman-1: Rethinking the Scaling-Up of One-Stage Conditioned Human Animation Models	Feb 3, 2025	Human AnimationHuman-Object Interaction Detection	—Unverified
MJ-VIDEO: Fine-Grained Benchmarking and Rewarding Video Preferences in Video Generation	Feb 3, 2025	BenchmarkingFairness	—Unverified
Sparse VideoGen: Accelerating Video Diffusion Transformers with Spatial-Temporal Sparsity	Feb 3, 2025	Video Generation	—Unverified
Secure & Personalized Music-to-Video Generation via CHARCHA	Feb 3, 2025	RhythmVideo Generation	—Unverified
Zeroth-order Informed Fine-Tuning for Diffusion Model: A Recursive Likelihood Ratio Optimizer	Feb 2, 2025	Reinforcement Learning (RL)Video Generation	—Unverified
HuViDPO:Enhancing Video Generation through Direct Preference Optimization for Human-Centric Alignment	Feb 2, 2025	Video Generation	—Unverified
Video Latent Flow Matching: Optimal Polynomial Projections for Video Interpolation and Extrapolation	Feb 1, 2025	Image GenerationVideo Generation	—Unverified
Shape from Semantics: 3D Shape Generation from Multi-View Semantics	Feb 1, 2025	3D geometry3D Shape Generation	—Unverified
Every Image Listens, Every Image Dances: Music-Driven Image Animation	Jan 30, 2025	Image AnimationVideo Generation	—Unverified
Improving Video Generation with Human Feedback	Jan 23, 2025	Video Generation	—Unverified
Taming Teacher Forcing for Masked Autoregressive Video Generation	Jan 21, 2025	Video GenerationVideo Prediction	—Unverified
GenVidBench: A Challenging Benchmark for Detecting AI-Generated Video	Jan 20, 2025	Video ClassificationVideo Generation	—Unverified
EMO2: End-Effector Guided Audio-Driven Avatar Video Generation	Jan 18, 2025	Gesture GenerationVideo Generation	—Unverified
RichSpace: Enriching Text-to-Video Prompt Space via Text Embedding Interpolation	Jan 17, 2025	Text-to-Video GenerationVideo Generation	—Unverified
Learnings from Scaling Visual Tokenizers for Reconstruction and Generation	Jan 16, 2025	DecoderImage Generation	—Unverified
VideoWorld: Exploring Knowledge Learning from Unlabeled Videos	Jan 16, 2025	Video Generation	—Unverified
Ouroboros-Diffusion: Exploring Consistent Content Generation in Tuning-free Long Video Diffusion	Jan 15, 2025	DenoisingVideo Denoising	—Unverified
RepVideo: Rethinking Cross-Layer Representation for Video Generation	Jan 15, 2025	Video Generation	—Unverified
Comprehensive Subjective and Objective Evaluation Method for Text-generated Video	Jan 15, 2025	Video Generation	—Unverified
GameFactory: Creating New Games with Generative Interactive Videos	Jan 14, 2025	Domain GeneralizationMinecraft	—Unverified
Diffusion Adversarial Post-Training for One-Step Video Generation	Jan 14, 2025	Video Generation	—Unverified

Show:10 25 50

← PrevPage 16 of 30Next →

All datasets UCF-101 BAIR Robot Pushing Sky Time-lapse UCF-101 16 frames, 64x64, Unconditional UCF-101 16 frames, Unconditional, Single GPU LAION-400M Taichi UCF-101 16 frames, 128x128, Unconditional Kinetics-600 12 frames, 64x64 How2Sign Kinetics-600 12 frames, 128x128 Kinetics-600 48 frames, 64x64

Benchmark Results

#	Model	Metric	Claimed	Verified	Status
1	MCVD	FVD16	2,460	—	Unverified
2	VDM	FVD16	1,396	—	Unverified
3	TGAN-v2 (128x128)	FVD16	1,209	—	Unverified
4	MCVD (64x64)	FVD16	1,143	—	Unverified
5	MoCoGAN-HD (256x256, unconditional)	FVD16	700	—	Unverified
6	MagicVideo (256x256, text-conditional)	FVD16	699	—	Unverified
7	TATS (256x256)	FVD16	635	—	Unverified
8	FIFO-Diffusion	FVD128	596.64	—	Unverified
9	DIGAN (128x128, unconditional)	FVD16	577	—	Unverified
10	LVDM (256x256, unconditional)	FVD16	552	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	MoCoGAN	FVD score	503	—	Unverified
2	Baseline (from LVT)	FVD score	320.9	—	Unverified
3	SVG-FP (from FVD)	FVD score	315.5	—	Unverified
4	CDNA (from FVD)	FVD score	296.5	—	Unverified
5	SV2P (from FVD)	FVD score	262.5	—	Unverified
6	SVG-LP (from vRNN)	FVD score	256.62	—	Unverified
7	WAM	FVD score	159.6	—	Unverified
8	VRNN 1L	FVD score	149.22	—	Unverified
9	SAVP (from vRNN)	FVD score	143.43	—	Unverified
10	Hier-VRNN	FVD score	143.4	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	MoCoGAN-HD (128x128)	FVD 16	183.6	—	Unverified
2	TATS (128x128)	FVD 16	132.6	—	Unverified
3	Long-video GAN (256x256)	FVD 16	116.5	—	Unverified
4	DIGAN (128x128)	FVD 16	114.6	—	Unverified
5	Long-video GAN (128x128)	FVD 16	107.5	—	Unverified
6	LVDM (256x256)	FVD 16	95.2	—	Unverified
7	DDMI	FVD 16	66.25	—	Unverified
8	Latte + LeanVAE	FVD 16	49.59	—	Unverified
9	StyleSV (256x256)	FVD 16	49	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	Video Diffusion Model	Inception Score	57	—	Unverified
2	TGAN-ODE	Inception Score	15.2	—	Unverified
3	TGAN-F	Inception Score	13.62	—	Unverified
4	MoCoGAN	Inception Score	12.42	—	Unverified
5	MoCoGAN-MDP	Inception Score	11.86	—	Unverified
6	TGAN-SVC	Inception Score	11.85	—	Unverified
7	VGAN	Inception Score	8.18	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	TGAN-F	Inception Score	22.91	—	Unverified
2	TGANv2	Inception Score	21.45	—	Unverified
3	TGANv2-ODE	Inception Score	21.02	—	Unverified
4	MoCoGAN	Inception Score	12.42	—	Unverified
5	MoCoGAN-MDP	Inception Score	11.86	—	Unverified
6	TGAN-SVC	Inception Score	11.85	—	Unverified
7	VGAN	Inception Score	8.18	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	Imagen original (constant=6)	CLIP R-Precision	92.12	—	Unverified
2	Imagen fully distilled (oscillate (15,1))	CLIP R-Precision	90.97	—	Unverified
3	Imagen distilled (constant=6)	CLIP R-Precision	90.88	—	Unverified
4	Imagen original (oscillate(15,1))	CLIP R-Precision	89.91	—	Unverified
5	Imagen fully distilled (constant=6)	CLIP R-Precision	89.68	—	Unverified
6	Imagen distilled (oscillate (15,1))	CLIP R-Precision	88.78	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	DIGAN (256x256)	FVD16	156.7	—	Unverified
2	MoCoGAN-HD (128x128)	FVD16	144.7	—	Unverified
3	DIGAN (128x128)	FVD16	128.1	—	Unverified
4	LVDM (256x256)	FVD16	99	—	Unverified
5	TATS (128x128)	FVD16	94.6	—	Unverified
6	StyleSV (256x256)	FVD16	82.6	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	TGANv2 (2020)	Inception Score	28.87	—	Unverified
2	DVD-GAN	Inception Score	27.38	—	Unverified
3	VideoGPT	Inception Score	24.69	—	Unverified
4	TGANv2	Inception Score	24.34	—	Unverified
5	TGAN-F	Inception Score	22.91	—	Unverified
6	TGANv2-ODE	Inception Score	21.02	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	DVD-GAN	FVD	31.1	—	Unverified
2	MAGVIT	FVD	9.9	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	INR-V	FVD16	144	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	DVD-GAN	FID	2.16	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	DVD-GAN	FID	12.92	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	DiT-XL/2 + CVAE-FT-SE	FID	8.59	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	VideoAssembler (Zero-Shot, 256x256, class-conditional)	FVD16	252	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	PG-SWGAN-3D	FID	404.1	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	StyleSV	FVD16	207.2	—	Unverified