Video Generation

( Various Video Generation Tasks. Gif credit: MaGViT )

Papers

Recently Added Most Hyped Most Active Needs Verification Most Verified

Showing 701–725 of 1466 papers

Title	Date	Tasks	Status	Hype
Progressive Autoregressive Video Diffusion Models	Oct 10, 2024	DenoisingVideo Denoising	CodeCode Available	2
HARIVO: Harnessing Text-to-Image Models for Video Generation	Oct 10, 2024	DiversityVideo Generation	—Unverified	0
Hallo2: Long-Duration and High-Resolution Audio-Driven Portrait Image Animation	Oct 10, 2024	4kImage Animation	CodeCode Available	7
Trans4D: Realistic Geometry-Aware Transition for Compositional Text-to-4D Synthesis	Oct 9, 2024	Video Generation	CodeCode Available	0
ViBiDSampler: Enhancing Video Interpolation Using Bidirectional Diffusion Sampler	Oct 8, 2024	GPUVideo Generation	—Unverified	0
Pyramidal Flow Matching for Efficient Video Generative Modeling	Oct 8, 2024	GPUText-to-Video Generation	CodeCode Available	7
SeeClear: Semantic Distillation Enhances Pixel Condensation for Video Super-Resolution	Oct 8, 2024	Super-ResolutionVideo Generation	CodeCode Available	1
BroadWay: Boost Your Text-to-Video Generation Model in a Training-free Way	Oct 8, 2024	DecoderText-to-Video Generation	—Unverified	0
GR-2: A Generative Video-Language-Action Model with Web-Scale Knowledge for Robot Manipulation	Oct 8, 2024	Multi-Task LearningRobot Manipulation	—Unverified	0
T2V-Turbo-v2: Enhancing Video Generation Model Post-Training through Data, Reward, and Conditional Guidance Design	Oct 8, 2024	Video AlignmentVideo Generation	CodeCode Available	3
TweedieMix: Improving Multi-Concept Fusion for Diffusion-based Image/Video Generation	Oct 8, 2024	Video Generation	CodeCode Available	2
Towards World Simulator: Crafting Physical Commonsense-Based Benchmark for Video Generation	Oct 7, 2024	Prompt EngineeringVideo Generation	CodeCode Available	2
Beyond FVD: Enhanced Evaluation Metrics for Video Generation Quality	Oct 7, 2024	Video Generation	CodeCode Available	1
ACDC: Autoregressive Coherent Multimodal Generation using Diffusion Correction	Oct 7, 2024	multimodal generationStory Generation	—Unverified	0
The Dawn of Video Generation: Preliminary Explorations with SORA-like Models	Oct 7, 2024	Video Generation	—Unverified	0
Realizing Video Summarization from the Path of Language-based Semantic Understanding	Oct 6, 2024	Mixture-of-ExpertsVideo Generation	—Unverified	0
Noise Crystallization and Liquid Noise: Zero-shot Video Generation using Image Diffusion Models	Oct 5, 2024	Image GenerationStyle Transfer	—Unverified	0
Accelerating Diffusion Transformers with Token-wise Feature Caching	Oct 5, 2024	Video Generation	CodeCode Available	3
Redefining Temporal Modeling in Video Diffusion: The Vectorized Timestep Approach	Oct 4, 2024	Image GenerationImage to Video Generation	CodeCode Available	1
ECHOPulse: ECG controlled echocardio-grams video generation	Oct 4, 2024	Video Generation	CodeCode Available	1
People are poorly equipped to detect AI-powered voice clones	Oct 3, 2024	Video Generation	—Unverified	0
Loong: Generating Minute-level Long Videos with Autoregressive Language Models	Oct 3, 2024	Video Generation	—Unverified	0
SageAttention: Accurate 8-Bit Attention for Plug-and-play Inference Acceleration	Oct 3, 2024	Image GenerationQuantization	CodeCode Available	7
COMUNI: Decomposing Common and Unique Video Signals for Diffusion-based Video Generation	Oct 2, 2024	DecoderPosition	—Unverified	0
MM-LDM: Multi-Modal Latent Diffusion Model for Sounding Video Generation	Oct 2, 2024	Video Generation	CodeCode Available	1

Show:10 25 50

← PrevPage 29 of 59Next →

All datasets UCF-101 BAIR Robot Pushing Sky Time-lapse UCF-101 16 frames, 64x64, Unconditional UCF-101 16 frames, Unconditional, Single GPU LAION-400M Taichi UCF-101 16 frames, 128x128, Unconditional Kinetics-600 12 frames, 64x64 How2Sign Kinetics-600 12 frames, 128x128 Kinetics-600 48 frames, 64x64

Benchmark Results

#	Model	Metric	Claimed	Verified	Status
1	MCVD	FVD16	2,460	—	Unverified
2	VDM	FVD16	1,396	—	Unverified
3	TGAN-v2 (128x128)	FVD16	1,209	—	Unverified
4	MCVD (64x64)	FVD16	1,143	—	Unverified
5	MoCoGAN-HD (256x256, unconditional)	FVD16	700	—	Unverified
6	MagicVideo (256x256, text-conditional)	FVD16	699	—	Unverified
7	TATS (256x256)	FVD16	635	—	Unverified
8	FIFO-Diffusion	FVD128	596.64	—	Unverified
9	DIGAN (128x128, unconditional)	FVD16	577	—	Unverified
10	LVDM (256x256, unconditional)	FVD16	552	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	MoCoGAN	FVD score	503	—	Unverified
2	Baseline (from LVT)	FVD score	320.9	—	Unverified
3	SVG-FP (from FVD)	FVD score	315.5	—	Unverified
4	CDNA (from FVD)	FVD score	296.5	—	Unverified
5	SV2P (from FVD)	FVD score	262.5	—	Unverified
6	SVG-LP (from vRNN)	FVD score	256.62	—	Unverified
7	WAM	FVD score	159.6	—	Unverified
8	VRNN 1L	FVD score	149.22	—	Unverified
9	SAVP (from vRNN)	FVD score	143.43	—	Unverified
10	Hier-VRNN	FVD score	143.4	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	MoCoGAN-HD (128x128)	FVD 16	183.6	—	Unverified
2	TATS (128x128)	FVD 16	132.6	—	Unverified
3	Long-video GAN (256x256)	FVD 16	116.5	—	Unverified
4	DIGAN (128x128)	FVD 16	114.6	—	Unverified
5	Long-video GAN (128x128)	FVD 16	107.5	—	Unverified
6	LVDM (256x256)	FVD 16	95.2	—	Unverified
7	DDMI	FVD 16	66.25	—	Unverified
8	Latte + LeanVAE	FVD 16	49.59	—	Unverified
9	StyleSV (256x256)	FVD 16	49	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	Video Diffusion Model	Inception Score	57	—	Unverified
2	TGAN-ODE	Inception Score	15.2	—	Unverified
3	TGAN-F	Inception Score	13.62	—	Unverified
4	MoCoGAN	Inception Score	12.42	—	Unverified
5	MoCoGAN-MDP	Inception Score	11.86	—	Unverified
6	TGAN-SVC	Inception Score	11.85	—	Unverified
7	VGAN	Inception Score	8.18	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	TGAN-F	Inception Score	22.91	—	Unverified
2	TGANv2	Inception Score	21.45	—	Unverified
3	TGANv2-ODE	Inception Score	21.02	—	Unverified
4	MoCoGAN	Inception Score	12.42	—	Unverified
5	MoCoGAN-MDP	Inception Score	11.86	—	Unverified
6	TGAN-SVC	Inception Score	11.85	—	Unverified
7	VGAN	Inception Score	8.18	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	Imagen original (constant=6)	CLIP R-Precision	92.12	—	Unverified
2	Imagen fully distilled (oscillate (15,1))	CLIP R-Precision	90.97	—	Unverified
3	Imagen distilled (constant=6)	CLIP R-Precision	90.88	—	Unverified
4	Imagen original (oscillate(15,1))	CLIP R-Precision	89.91	—	Unverified
5	Imagen fully distilled (constant=6)	CLIP R-Precision	89.68	—	Unverified
6	Imagen distilled (oscillate (15,1))	CLIP R-Precision	88.78	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	DIGAN (256x256)	FVD16	156.7	—	Unverified
2	MoCoGAN-HD (128x128)	FVD16	144.7	—	Unverified
3	DIGAN (128x128)	FVD16	128.1	—	Unverified
4	LVDM (256x256)	FVD16	99	—	Unverified
5	TATS (128x128)	FVD16	94.6	—	Unverified
6	StyleSV (256x256)	FVD16	82.6	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	TGANv2 (2020)	Inception Score	28.87	—	Unverified
2	DVD-GAN	Inception Score	27.38	—	Unverified
3	VideoGPT	Inception Score	24.69	—	Unverified
4	TGANv2	Inception Score	24.34	—	Unverified
5	TGAN-F	Inception Score	22.91	—	Unverified
6	TGANv2-ODE	Inception Score	21.02	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	DVD-GAN	FVD	31.1	—	Unverified
2	MAGVIT	FVD	9.9	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	INR-V	FVD16	144	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	DVD-GAN	FID	2.16	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	DVD-GAN	FID	12.92	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	DiT-XL/2 + CVAE-FT-SE	FID	8.59	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	VideoAssembler (Zero-Shot, 256x256, class-conditional)	FVD16	252	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	PG-SWGAN-3D	FID	404.1	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	StyleSV	FVD16	207.2	—	Unverified