Video Generation

( Various Video Generation Tasks. Gif credit: MaGViT )

Papers

Recently Added Most Hyped Most Active Needs Verification Most Verified

Showing 601–650 of 1466 papers

Title	Date	Tasks	Status
Face Consistency Benchmark for GenAI Video	May 16, 2025	Video Generation	—Unverified
ToonifyGB: StyleGAN-based Gaussian Blendshapes for 3D Stylized Head Avatars	May 15, 2025	Image StylizationVideo Generation	—Unverified
Generating time-consistent dynamics with discriminator-guided image diffusion models	May 14, 2025	Video Generation	—Unverified
Aquarius: A Family of Industry-Level Video Generation Models for Marketing Scenarios	May 14, 2025	MarketingVideo Generation	—Unverified
ShotAdapter: Text-to-Multi-Shot Video Generation with Diffusion Models	May 12, 2025	Video Generation	—Unverified
Generative Pre-trained Autoregressive Diffusion Transformer	May 12, 2025	Few-Shot LearningVideo Generation	—Unverified
DAPE: Dual-Stage Parameter-Efficient Fine-Tuning for Consistent Video Editing with Diffusion Models	May 11, 2025	parameter-efficient fine-tuningVideo Alignment	—Unverified
BridgeIV: Bridging Customized Image and Video Generation through Test-Time Autoregressive Identity Propagation	May 11, 2025	Video Generation	—Unverified
ProFashion: Prototype-guided Fashion Video Generation with Multiple Reference Images	May 10, 2025	DenoisingVideo Generation	—Unverified
T2VTextBench: A Human Evaluation Benchmark for Textual Control in Video Generation Models	May 8, 2025	Instruction FollowingText-to-Video Generation	—Unverified
Real-Time Person Image Synthesis Using a Flow Matching Model	May 6, 2025	Image GenerationVideo Generation	CodeCode Available
Transformers for Learning on Noisy and Task-Level Manifolds: Approximation and Generalization Insights	May 6, 2025	Video Generation	—Unverified
A Unit Enhancement and Guidance Framework for Audio-Driven Avatar Video Generation	May 6, 2025	Human AnimationVideo Generation	—Unverified
DualReal: Adaptive Joint Training for Lossless Identity-Motion Fusion in Video Customization	May 4, 2025	DenoisingText-to-Video Generation	—Unverified
PosePilot: Steering Camera Pose for Generative World Models with Self-supervised Depth	May 3, 2025	Autonomous DrivingCamera Pose Estimation	—Unverified
T2VPhysBench: A First-Principles Benchmark for Physical Consistency in Text-to-Video Generation	May 1, 2025	counterfactualInstruction Following	—Unverified
Eye2Eye: A Simple Approach for Monocular-to-Stereo Video Synthesis	Apr 30, 2025	Disparity EstimationTransparent objects	—Unverified
Capturing Conditional Dependence via Auto-regressive Diffusion Models	Apr 30, 2025	Video Generation	—Unverified
ReVision: High-Quality, Low-Cost Video Generation with Explicit 3D Physics Modeling for Complex Motion and Interaction	Apr 30, 2025	Video Generation	—Unverified
TesserAct: Learning 4D Embodied World Models	Apr 29, 2025	Novel View SynthesisVideo Generation	—Unverified
DiVE: Efficient Multi-View Driving Scenes Generation Based on Video Diffusion Transformer	Apr 28, 2025	Video Generation	—Unverified
Stealing Creator's Workflow: A Creator-Inspired Agentic Framework with Iterative Feedback Loop for Improved Scientific Short-form Generation	Apr 26, 2025	FormVideo Generation	—Unverified
We'll Fix it in Post: Improving Text-to-Video Generation with Neuro-Symbolic Feedback	Apr 24, 2025	Text-to-Video GenerationVideo Generation	—Unverified
Subject-driven Video Generation via Disentangled Identity and Motion	Apr 23, 2025	Subject-driven Video GenerationVideo Generation	—Unverified
ManipDreamer: Boosting Robotic Manipulation World Model with Action Tree and Visual Guidance	Apr 23, 2025	Instruction FollowingSSIM	—Unverified
DiTPainter: Efficient Video Inpainting with Diffusion Transformers	Apr 22, 2025	Video GenerationVideo Inpainting	—Unverified
Reasoning Physical Video Generation with Diffusion Timestep Tokens via Reinforcement Learning	Apr 22, 2025	Large Language Modelreinforcement-learning	—Unverified
Tiger200K: Manually Curated High Visual Quality Video Dataset from UGC Platform	Apr 21, 2025	Boundary DetectionOptical Character Recognition (OCR)	—Unverified
DyST-XL: Dynamic Layout Planning and Content Control for Compositional Text-to-Video Generation	Apr 21, 2025	AttributeDenoising	—Unverified
Turbo2K: Towards Ultra-Efficient and High-Quality 2K Video Synthesis	Apr 20, 2025	2kKnowledge Distillation	—Unverified
Modular-Cam: Modular Dynamic Camera-view Video Generation with LLM	Apr 16, 2025	Large Language ModelText-to-Video Generation	—Unverified
The Devil is in the Prompts: Retrieval-Augmented Prompt Optimization for Text-to-Video Generation	Apr 16, 2025	SentenceText-to-Video Generation	—Unverified
OmniVDiff: Omni Controllable Video Diffusion for Generation and Understanding	Apr 15, 2025	Semantic SegmentationVideo Generation	—Unverified
InterAnimate: Taming Region-aware Diffusion Model for Realistic Human Interaction Animation	Apr 15, 2025	DenoisingVideo Generation	—Unverified
VideoPanda: Video Panoramic Diffusion with Multi-view Attention	Apr 15, 2025	Video Generation	—Unverified
FingER: Content Aware Fine-grained Evaluation with Reasoning for AI-Generated Videos	Apr 14, 2025	Video Generation	—Unverified
H-MoRe: Learning Human-centric Motion Representation for Action Analysis	Apr 14, 2025	Action AnalysisAction Recognition	CodeCode Available
H3AE: High Compression, High Speed, and High Quality AutoEncoder for Video Diffusion Models	Apr 14, 2025	DenoisingText-to-Video Generation	—Unverified
CamMimic: Zero-Shot Image To Camera Motion Personalized Video Generation Using Diffusion Models	Apr 13, 2025	Video EditingVideo Generation	—Unverified
Training-free Guidance in Text-to-Video Generation via Multimodal Planning and Structured Noise Initialization	Apr 11, 2025	DenoisingObject	—Unverified
TokenMotion: Decoupled Motion Control via Token Disentanglement for Human-centric Video Generation	Apr 11, 2025	DisentanglementVideo Generation	—Unverified
EasyGenNet: An Efficient Framework for Audio-Driven Gesture Video Generation Based on Diffusion Model	Apr 11, 2025	Gesture GenerationVideo Generation	—Unverified
Diffusion Models for Robotic Manipulation: A Survey	Apr 11, 2025	Data AugmentationImage Augmentation	—Unverified
Seaweed-7B: Cost-Effective Training of Video Generation Foundation Model	Apr 11, 2025	GPUVideo Generation	—Unverified
Beyond the Frame: Generating 360° Panoramic Videos from Perspective Videos	Apr 10, 2025	Question AnsweringVideo Generation	—Unverified
One-Minute Video Generation with Test-Time Training	Apr 7, 2025	MambaVideo Generation	—Unverified
MG-Gen: Single Image to Motion Graphics Generation with Layer Decomposition	Apr 3, 2025	Code GenerationImage to Video Generation	—Unverified
Morpheus: Benchmarking Physical Reasoning of Video Generative Models with Real Physical Experiments	Apr 3, 2025	Physical Commonsense ReasoningVideo Generation	—Unverified
ConMo: Controllable Motion Disentanglement and Recomposition for Zero-Shot Motion Transfer	Apr 3, 2025	DisentanglementMotion Disentanglement	CodeCode Available
OmniCam: Unified Multimodal Video Generation via Camera Control	Apr 3, 2025	Video Generation	—Unverified

Show:10 25 50

← PrevPage 13 of 30Next →

All datasets UCF-101 BAIR Robot Pushing Sky Time-lapse UCF-101 16 frames, 64x64, Unconditional UCF-101 16 frames, Unconditional, Single GPU LAION-400M Taichi UCF-101 16 frames, 128x128, Unconditional Kinetics-600 12 frames, 64x64 How2Sign Kinetics-600 12 frames, 128x128 Kinetics-600 48 frames, 64x64

Benchmark Results

#	Model	Metric	Claimed	Verified	Status
1	MCVD	FVD16	2,460	—	Unverified
2	VDM	FVD16	1,396	—	Unverified
3	TGAN-v2 (128x128)	FVD16	1,209	—	Unverified
4	MCVD (64x64)	FVD16	1,143	—	Unverified
5	MoCoGAN-HD (256x256, unconditional)	FVD16	700	—	Unverified
6	MagicVideo (256x256, text-conditional)	FVD16	699	—	Unverified
7	TATS (256x256)	FVD16	635	—	Unverified
8	FIFO-Diffusion	FVD128	596.64	—	Unverified
9	DIGAN (128x128, unconditional)	FVD16	577	—	Unverified
10	LVDM (256x256, unconditional)	FVD16	552	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	MoCoGAN	FVD score	503	—	Unverified
2	Baseline (from LVT)	FVD score	320.9	—	Unverified
3	SVG-FP (from FVD)	FVD score	315.5	—	Unverified
4	CDNA (from FVD)	FVD score	296.5	—	Unverified
5	SV2P (from FVD)	FVD score	262.5	—	Unverified
6	SVG-LP (from vRNN)	FVD score	256.62	—	Unverified
7	WAM	FVD score	159.6	—	Unverified
8	VRNN 1L	FVD score	149.22	—	Unverified
9	SAVP (from vRNN)	FVD score	143.43	—	Unverified
10	Hier-VRNN	FVD score	143.4	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	MoCoGAN-HD (128x128)	FVD 16	183.6	—	Unverified
2	TATS (128x128)	FVD 16	132.6	—	Unverified
3	Long-video GAN (256x256)	FVD 16	116.5	—	Unverified
4	DIGAN (128x128)	FVD 16	114.6	—	Unverified
5	Long-video GAN (128x128)	FVD 16	107.5	—	Unverified
6	LVDM (256x256)	FVD 16	95.2	—	Unverified
7	DDMI	FVD 16	66.25	—	Unverified
8	Latte + LeanVAE	FVD 16	49.59	—	Unverified
9	StyleSV (256x256)	FVD 16	49	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	Video Diffusion Model	Inception Score	57	—	Unverified
2	TGAN-ODE	Inception Score	15.2	—	Unverified
3	TGAN-F	Inception Score	13.62	—	Unverified
4	MoCoGAN	Inception Score	12.42	—	Unverified
5	MoCoGAN-MDP	Inception Score	11.86	—	Unverified
6	TGAN-SVC	Inception Score	11.85	—	Unverified
7	VGAN	Inception Score	8.18	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	TGAN-F	Inception Score	22.91	—	Unverified
2	TGANv2	Inception Score	21.45	—	Unverified
3	TGANv2-ODE	Inception Score	21.02	—	Unverified
4	MoCoGAN	Inception Score	12.42	—	Unverified
5	MoCoGAN-MDP	Inception Score	11.86	—	Unverified
6	TGAN-SVC	Inception Score	11.85	—	Unverified
7	VGAN	Inception Score	8.18	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	Imagen original (constant=6)	CLIP R-Precision	92.12	—	Unverified
2	Imagen fully distilled (oscillate (15,1))	CLIP R-Precision	90.97	—	Unverified
3	Imagen distilled (constant=6)	CLIP R-Precision	90.88	—	Unverified
4	Imagen original (oscillate(15,1))	CLIP R-Precision	89.91	—	Unverified
5	Imagen fully distilled (constant=6)	CLIP R-Precision	89.68	—	Unverified
6	Imagen distilled (oscillate (15,1))	CLIP R-Precision	88.78	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	DIGAN (256x256)	FVD16	156.7	—	Unverified
2	MoCoGAN-HD (128x128)	FVD16	144.7	—	Unverified
3	DIGAN (128x128)	FVD16	128.1	—	Unverified
4	LVDM (256x256)	FVD16	99	—	Unverified
5	TATS (128x128)	FVD16	94.6	—	Unverified
6	StyleSV (256x256)	FVD16	82.6	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	TGANv2 (2020)	Inception Score	28.87	—	Unverified
2	DVD-GAN	Inception Score	27.38	—	Unverified
3	VideoGPT	Inception Score	24.69	—	Unverified
4	TGANv2	Inception Score	24.34	—	Unverified
5	TGAN-F	Inception Score	22.91	—	Unverified
6	TGANv2-ODE	Inception Score	21.02	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	DVD-GAN	FVD	31.1	—	Unverified
2	MAGVIT	FVD	9.9	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	INR-V	FVD16	144	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	DVD-GAN	FID	2.16	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	DVD-GAN	FID	12.92	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	DiT-XL/2 + CVAE-FT-SE	FID	8.59	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	VideoAssembler (Zero-Shot, 256x256, class-conditional)	FVD16	252	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	PG-SWGAN-3D	FID	404.1	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	StyleSV	FVD16	207.2	—	Unverified