Video Generation

( Various Video Generation Tasks. Gif credit: MaGViT )

Papers

Recently Added Most Hyped Most Active Needs Verification Most Verified

Showing 1251–1300 of 1466 papers

Title	Date	Tasks	Status
GPT4Video: A Unified Multimodal Large Language Model for lnstruction-Followed Understanding and Safety-Aware Generation	Nov 25, 2023	Instruction FollowingLanguage Modeling	—Unverified
Stable Video Diffusion: Scaling Latent Video Diffusion Models to Large Datasets	Nov 25, 2023	Image GenerationImage to Video Generation	CodeCode Available
AdaDiff: Adaptive Step Selection for Fast Diffusion Models	Nov 24, 2023	DenoisingImage Generation	—Unverified
Decouple Content and Motion for Conditional Image-to-Video Generation	Nov 24, 2023	Image to Video GenerationVideo Generation	—Unverified
GPT4Motion: Scripting Physical Motions in Text-to-Video Generation via Blender-Oriented GPT Planning	Nov 21, 2023	Image GenerationText-to-Video Generation	—Unverified
MoVideo: Motion-Aware Video Generation with Diffusion Models	Nov 19, 2023	Image GenerationImage to Video Generation	—Unverified
Make Pixels Dance: High-Dynamic Video Generation	Nov 18, 2023	Text-to-Video GenerationVideo Generation	—Unverified
Emu Video: Factorizing Text-to-Video Generation by Explicit Image Conditioning	Nov 17, 2023	Text-to-Video GenerationVideo Generation	—Unverified
LLM as an Art Director (LaDi): Using LLMs to improve Text-to-Media Generators	Nov 7, 2023	Image GenerationRetrieval	—Unverified
MeVGAN: GAN-based Plugin Model for Video Generation with Applications in Colonoscopy	Nov 7, 2023	Generative Adversarial NetworkMedical Procedure	CodeCode Available
REGIS: Refining Generated Videos via Iterative Stylistic Redesigning	Nov 3, 2023	Text-to-Video GenerationVideo Generation	CodeCode Available
POS: A Prompts Optimization Suite for Augmenting Text-to-Video Generation	Nov 2, 2023	DenoisingPOS	—Unverified
VideoDreamer: Customized Multi-Subject Text-to-Video Generation with Disen-Mix Finetuning	Nov 2, 2023	AttributeText-to-Video Generation	—Unverified
Exploring the Hyperparameter Space of Image Diffusion Models for Echocardiogram Generation	Nov 2, 2023	Video Generation	—Unverified
The Missing U for Efficient Diffusion Models	Oct 31, 2023	DenoisingImage Generation	—Unverified
Echocardiography video synthesis from end diastolic semantic map via diffusion model	Oct 11, 2023	DenoisingVideo Generation	—Unverified
RT-GAN: Recurrent Temporal GAN for Adding Lightweight Temporal Consistency to Frame-Based Domain Translation Approaches	Oct 2, 2023	Deep LearningVideo Generation	—Unverified
LLM-grounded Video Diffusion Models	Sep 29, 2023	Language ModelingLanguage Modelling	—Unverified
OSM-Net: One-to-Many One-shot Talking Head Generation with Spontaneous Head Motions	Sep 28, 2023	Talking Head GenerationVideo Generation	—Unverified
VideoDirectorGPT: Consistent Multi-scene Video Generation via LLM-Guided Planning	Sep 26, 2023	Image GenerationVideo Generation	—Unverified
GLOBER: Coherent Non-autoregressive Video Generation via GLOBal Guided Video DecodER	Sep 23, 2023	DecoderVideo Generation	CodeCode Available
The Power of Sound (TPoS): Audio Reactive Video Generation with Stable Diffusion	Sep 8, 2023	Video Generation	—Unverified
RenAIssance: A Survey into AI Text-to-Image Generation in the Era of Large Model	Sep 2, 2023	3D GenerationImage Generation	—Unverified
VideoGen: A Reference-Guided Latent Diffusion Approach for High Definition Text-to-Video Generation	Sep 1, 2023	DecoderImage Generation	—Unverified
Explaining Vision and Language through Graphs of Events in Space and Time	Aug 29, 2023	Graph MatchingVideo Generation	—Unverified
MagicAvatar: Multimodal Avatar Generation and Animation	Aug 28, 2023	Video Generation	—Unverified
Dysen-VDM: Empowering Dynamics-aware Text-to-Video Diffusion with LLMs	Aug 26, 2023	In-Context LearningVideo Generation	—Unverified
APLA: Additional Perturbation for Latent Noise with Adversarial Training Enables Consistency	Aug 24, 2023	Video Generation	—Unverified
Hamiltonian GAN	Aug 22, 2023	Inductive BiasVideo Generation	—Unverified
SimDA: Simple Diffusion Adapter for Efficient Video Generation	Aug 18, 2023	Super-ResolutionTransfer Learning	—Unverified
Dual-Stream Diffusion Net for Text-to-Video Generation	Aug 16, 2023	Text-to-Video GenerationVideo Generation	—Unverified
MobileVidFactory: Automatic Diffusion-Based Social Media Video Generation for Mobile Devices from Text	Jul 31, 2023	Video Generation	—Unverified
Hierarchical Semantic Perceptual Listener Head Video Generation: A High-performance Pipeline	Jul 19, 2023	DecoderTalking Head Generation	—Unverified
InternVid: A Large-scale Video-Text Dataset for Multimodal Understanding and Generation	Jul 13, 2023	Action RecognitionContrastive Learning	—Unverified
GD-VDM: Generated Depth for better Diffusion-based Video Generation	Jun 19, 2023	Image GenerationVideo Generation	CodeCode Available
Ada-TTA: Towards Adaptive High-Quality Text-to-Talking Avatar Synthesis	Jun 6, 2023	Neural Renderingtext-to-speech	—Unverified
Quantifying Sample Anonymity in Score-Based Generative Models with Adversarial Fingerprinting	Jun 2, 2023	Anomaly DetectionData Augmentation	—Unverified
Make-Your-Video: Customized Video Generation Using Textual and Structural Guidance	Jun 1, 2023	Image GenerationVideo Generation	—Unverified
Preserve Your Own Correlation: A Noise Prior for Video Diffusion Models	May 17, 2023	Image GenerationText-to-Video Generation	—Unverified
Make-An-Animation: Large-Scale Text-conditional 3D Human Motion Generation	May 16, 2023	Motion GenerationMotion Synthesis	—Unverified
Make-A-Protagonist: Generic Video Editing with An Ensemble of Experts	May 15, 2023	DenoisingVideo Editing	—Unverified
Multi-object Video Generation from Single Frame Layouts	May 6, 2023	Image GenerationObject	—Unverified
StyleLipSync: Style-based Personalized Lip-sync Video Generation	Apr 30, 2023	Video Generation	—Unverified
LaMD: Latent Motion Diffusion for Image-Conditional Video Generation	Apr 23, 2023	Motion GenerationVideo Generation	—Unverified
High-Fidelity and Freely Controllable Talking Head Video Generation	Apr 20, 2023	Face ModelTalking Head Generation	—Unverified
Latent-Shift: Latent Diffusion with Temporal Shift for Efficient Text-to-Video Generation	Apr 17, 2023	Image GenerationSuper-Resolution	—Unverified
Video Generation Beyond a Single Clip	Apr 15, 2023	Video Generation	—Unverified
VidStyleODE: Disentangled Video Editing via StyleGAN and NeuralODEs	Apr 12, 2023	Image AnimationVideo Editing	—Unverified
Sounding Video Generator: A Unified Framework for Text-guided Sounding Video Generation	Mar 29, 2023	Audio GenerationContrastive Learning	CodeCode Available
Qualitative Failures of Image Generation Models and Their Application in Detecting Deepfakes	Mar 29, 2023	Image GenerationVideo Generation	—Unverified

Show:10 25 50

← PrevPage 26 of 30Next →

All datasets UCF-101 BAIR Robot Pushing Sky Time-lapse UCF-101 16 frames, 64x64, Unconditional UCF-101 16 frames, Unconditional, Single GPU LAION-400M Taichi UCF-101 16 frames, 128x128, Unconditional Kinetics-600 12 frames, 64x64 How2Sign Kinetics-600 12 frames, 128x128 Kinetics-600 48 frames, 64x64

Benchmark Results

#	Model	Metric	Claimed	Verified	Status
1	MCVD	FVD16	2,460	—	Unverified
2	VDM	FVD16	1,396	—	Unverified
3	TGAN-v2 (128x128)	FVD16	1,209	—	Unverified
4	MCVD (64x64)	FVD16	1,143	—	Unverified
5	MoCoGAN-HD (256x256, unconditional)	FVD16	700	—	Unverified
6	MagicVideo (256x256, text-conditional)	FVD16	699	—	Unverified
7	TATS (256x256)	FVD16	635	—	Unverified
8	FIFO-Diffusion	FVD128	596.64	—	Unverified
9	DIGAN (128x128, unconditional)	FVD16	577	—	Unverified
10	LVDM (256x256, unconditional)	FVD16	552	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	MoCoGAN	FVD score	503	—	Unverified
2	Baseline (from LVT)	FVD score	320.9	—	Unverified
3	SVG-FP (from FVD)	FVD score	315.5	—	Unverified
4	CDNA (from FVD)	FVD score	296.5	—	Unverified
5	SV2P (from FVD)	FVD score	262.5	—	Unverified
6	SVG-LP (from vRNN)	FVD score	256.62	—	Unverified
7	WAM	FVD score	159.6	—	Unverified
8	VRNN 1L	FVD score	149.22	—	Unverified
9	SAVP (from vRNN)	FVD score	143.43	—	Unverified
10	Hier-VRNN	FVD score	143.4	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	MoCoGAN-HD (128x128)	FVD 16	183.6	—	Unverified
2	TATS (128x128)	FVD 16	132.6	—	Unverified
3	Long-video GAN (256x256)	FVD 16	116.5	—	Unverified
4	DIGAN (128x128)	FVD 16	114.6	—	Unverified
5	Long-video GAN (128x128)	FVD 16	107.5	—	Unverified
6	LVDM (256x256)	FVD 16	95.2	—	Unverified
7	DDMI	FVD 16	66.25	—	Unverified
8	Latte + LeanVAE	FVD 16	49.59	—	Unverified
9	StyleSV (256x256)	FVD 16	49	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	Video Diffusion Model	Inception Score	57	—	Unverified
2	TGAN-ODE	Inception Score	15.2	—	Unverified
3	TGAN-F	Inception Score	13.62	—	Unverified
4	MoCoGAN	Inception Score	12.42	—	Unverified
5	MoCoGAN-MDP	Inception Score	11.86	—	Unverified
6	TGAN-SVC	Inception Score	11.85	—	Unverified
7	VGAN	Inception Score	8.18	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	TGAN-F	Inception Score	22.91	—	Unverified
2	TGANv2	Inception Score	21.45	—	Unverified
3	TGANv2-ODE	Inception Score	21.02	—	Unverified
4	MoCoGAN	Inception Score	12.42	—	Unverified
5	MoCoGAN-MDP	Inception Score	11.86	—	Unverified
6	TGAN-SVC	Inception Score	11.85	—	Unverified
7	VGAN	Inception Score	8.18	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	Imagen original (constant=6)	CLIP R-Precision	92.12	—	Unverified
2	Imagen fully distilled (oscillate (15,1))	CLIP R-Precision	90.97	—	Unverified
3	Imagen distilled (constant=6)	CLIP R-Precision	90.88	—	Unverified
4	Imagen original (oscillate(15,1))	CLIP R-Precision	89.91	—	Unverified
5	Imagen fully distilled (constant=6)	CLIP R-Precision	89.68	—	Unverified
6	Imagen distilled (oscillate (15,1))	CLIP R-Precision	88.78	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	DIGAN (256x256)	FVD16	156.7	—	Unverified
2	MoCoGAN-HD (128x128)	FVD16	144.7	—	Unverified
3	DIGAN (128x128)	FVD16	128.1	—	Unverified
4	LVDM (256x256)	FVD16	99	—	Unverified
5	TATS (128x128)	FVD16	94.6	—	Unverified
6	StyleSV (256x256)	FVD16	82.6	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	TGANv2 (2020)	Inception Score	28.87	—	Unverified
2	DVD-GAN	Inception Score	27.38	—	Unverified
3	VideoGPT	Inception Score	24.69	—	Unverified
4	TGANv2	Inception Score	24.34	—	Unverified
5	TGAN-F	Inception Score	22.91	—	Unverified
6	TGANv2-ODE	Inception Score	21.02	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	DVD-GAN	FVD	31.1	—	Unverified
2	MAGVIT	FVD	9.9	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	INR-V	FVD16	144	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	DVD-GAN	FID	2.16	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	DVD-GAN	FID	12.92	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	DiT-XL/2 + CVAE-FT-SE	FID	8.59	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	VideoAssembler (Zero-Shot, 256x256, class-conditional)	FVD16	252	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	PG-SWGAN-3D	FID	404.1	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	StyleSV	FVD16	207.2	—	Unverified