Video Generation

( Various Video Generation Tasks. Gif credit: MaGViT )

Papers

Recently Added Most Hyped Most Active Needs Verification Most Verified

Showing 1001–1050 of 1466 papers

Title	Date	Tasks	Status
Boosting Camera Motion Control for Video Diffusion Transformers	Oct 14, 2024	Video Generation	—Unverified
Quality Prediction of AI Generated Images and Videos: Emerging Trends and Opportunities	Oct 11, 2024	DenoisingImage Quality Assessment	—Unverified
HARIVO: Harnessing Text-to-Image Models for Video Generation	Oct 10, 2024	DiversityVideo Generation	—Unverified
Koala-36M: A Large-scale Video Dataset Improving Consistency between Fine-grained Conditions and Video Content	Oct 10, 2024	Video AlignmentVideo Generation	—Unverified
Scaling Laws For Diffusion Transformers	Oct 10, 2024	Image GenerationText to Image Generation	—Unverified
Animating the Past: Reconstruct Trilobite via Video Generation	Oct 10, 2024	Language ModellingLarge Language Model	—Unverified
MotionAura: Generating High-Quality and Motion Consistent Videos using Discrete Diffusion	Oct 10, 2024	Denoisingparameter-efficient fine-tuning	CodeCode Available
Trans4D: Realistic Geometry-Aware Transition for Compositional Text-to-4D Synthesis	Oct 9, 2024	Video Generation	CodeCode Available
ViBiDSampler: Enhancing Video Interpolation Using Bidirectional Diffusion Sampler	Oct 8, 2024	GPUVideo Generation	—Unverified
BroadWay: Boost Your Text-to-Video Generation Model in a Training-free Way	Oct 8, 2024	DecoderText-to-Video Generation	—Unverified
GR-2: A Generative Video-Language-Action Model with Web-Scale Knowledge for Robot Manipulation	Oct 8, 2024	Multi-Task LearningRobot Manipulation	—Unverified
The Dawn of Video Generation: Preliminary Explorations with SORA-like Models	Oct 7, 2024	Video Generation	—Unverified
ACDC: Autoregressive Coherent Multimodal Generation using Diffusion Correction	Oct 7, 2024	multimodal generationStory Generation	—Unverified
Realizing Video Summarization from the Path of Language-based Semantic Understanding	Oct 6, 2024	Mixture-of-ExpertsVideo Generation	—Unverified
Noise Crystallization and Liquid Noise: Zero-shot Video Generation using Image Diffusion Models	Oct 5, 2024	Image GenerationStyle Transfer	—Unverified
People are poorly equipped to detect AI-powered voice clones	Oct 3, 2024	Video Generation	—Unverified
Loong: Generating Minute-level Long Videos with Autoregressive Language Models	Oct 3, 2024	Video Generation	—Unverified
COMUNI: Decomposing Common and Unique Video Signals for Diffusion-based Video Generation	Oct 2, 2024	DecoderPosition	—Unverified
Q-Bench-Video: Benchmarking the Video Quality Understanding of LMMs	Sep 30, 2024	BenchmarkingMultiple-choice	—Unverified
ImmersePro: End-to-End Stereo Video Synthesis Via Implicit Disparity Learning	Sep 30, 2024	BenchmarkingDisparity Estimation	CodeCode Available
Convergence of Diffusion Models Under the Manifold Hypothesis in High-Dimensions	Sep 27, 2024	DenoisingGaussian Processes	—Unverified
Self-Supervised Learning of Deviation in Latent Representation for Co-speech Gesture Video Generation	Sep 26, 2024	Self-Supervised LearningSSIM	—Unverified
Pose-Guided Fine-Grained Sign Language Video Generation	Sep 25, 2024	Image GenerationOptical Flow Estimation	—Unverified
Gen2Act: Human Video Generation in Novel Scenarios enables Generalizable Robot Manipulation	Sep 24, 2024	Robot ManipulationVideo Generation	—Unverified
Technical Report: Competition Solution For Modelscope-Sora	Sep 24, 2024	Text-to-Video GenerationVideo Description	—Unverified
Advancing Video Quality Assessment for AIGC	Sep 23, 2024	Image GenerationText Generation	—Unverified
Multi-Modal Generative AI: Multi-modal LLM, Diffusion and Beyond	Sep 23, 2024	Language ModellingLarge Language Model	—Unverified
Video-to-Audio Generation with Fine-grained Temporal Semantics	Sep 23, 2024	Audio GenerationVideo Generation	—Unverified
FaceVid-1K: A Large-Scale High-Quality Multiracial Human Face Video Dataset	Sep 23, 2024	Image GenerationUnconditional Video Generation	—Unverified
Dormant: Defending against Pose-driven Human Image Animation	Sep 22, 2024	Image AnimationVideo Generation	CodeCode Available
JVID: Joint Video-Image Diffusion for Visual-Quality and Temporal-Consistency in Video Generation	Sep 21, 2024	Video Generation	—Unverified
JoyHallo: Digital human model for Mandarin	Sep 20, 2024	modelText Generation	—Unverified
Denoising Reuse: Exploiting Inter-frame Motion Consistency for Efficient Video Latent Generation	Sep 19, 2024	DenoisingVideo Generation	—Unverified
The Art of Storytelling: Multi-Agent Generative AI for Dynamic Multimodal Narratives	Sep 17, 2024	text-to-speechText to Speech	—Unverified
OSV: One Step is Enough for High-Quality Image to Video Generation	Sep 17, 2024	Image to Video GenerationVideo Generation	—Unverified
EMOdiffhead: Continuously Emotional Control in Talking Head Generation via Diffusion	Sep 11, 2024	Portrait AnimationTalking Head Generation	CodeCode Available
DiffTED: One-shot Audio-driven TED Talk Video Generation with Diffusion-based Co-speech Gestures	Sep 11, 2024	DiversityTalking Head Generation	—Unverified
G3PT: Unleash the power of Autoregressive Modeling in 3D Generation via Cross-scale Querying Transformer	Sep 10, 2024	3D GenerationVideo Generation	—Unverified
MyGo: Consistent and Controllable Multi-View Driving Video Generation with Camera Control	Sep 10, 2024	Autonomous DrivingVideo Generation	—Unverified
DriveScape: Towards High-Resolution Controllable Multi-View Driving Video Generation	Sep 9, 2024	Autonomous DrivingVideo Generation	—Unverified
Loopy: Taming Audio-Driven Portrait Avatar with Long-Term Motion Dependency	Sep 4, 2024	Video Generation	—Unverified
DiVE: DiT-based Video Generation with Enhanced Control	Sep 3, 2024	Autonomous DrivingVideo Generation	—Unverified
CyberHost: Taming Audio-driven Avatar Diffusion Model with Region Codebook Attention	Sep 3, 2024	Human AnimationVideo Generation	—Unverified
OD-VAE: An Omni-dimensional Video Compressor for Improving Latent Video Diffusion Model	Sep 2, 2024	GPUVideo Generation	—Unverified
Compositional 3D-aware Video Generation with LLM Director	Aug 31, 2024	Text-to-Video GenerationVideo Generation	—Unverified
VQ4DiT: Efficient Post-Training Vector Quantization for Diffusion Transformers	Aug 30, 2024	GPUImage Generation	—Unverified
DriveGenVLM: Real-world Video Generation for Vision Language Model based Autonomous Driving	Aug 29, 2024	Autonomous DrivingDenoising	—Unverified
One-Shot Learning Meets Depth Diffusion in Multi-Object Videos	Aug 29, 2024	One-Shot LearningVideo Generation	—Unverified
Alignment is All You Need: A Training-free Augmentation Strategy for Pose-guided Video Generation	Aug 29, 2024	AllVideo Generation	—Unverified
GenDDS: Generating Diverse Driving Video Scenarios with Prompt-to-Video Generative Model	Aug 28, 2024	Autonomous DrivingData Augmentation	—Unverified

Show:10 25 50

← PrevPage 21 of 30Next →

All datasets UCF-101 BAIR Robot Pushing Sky Time-lapse UCF-101 16 frames, 64x64, Unconditional UCF-101 16 frames, Unconditional, Single GPU LAION-400M Taichi UCF-101 16 frames, 128x128, Unconditional Kinetics-600 12 frames, 64x64 How2Sign Kinetics-600 12 frames, 128x128 Kinetics-600 48 frames, 64x64

Benchmark Results

#	Model	Metric	Claimed	Verified	Status
1	MCVD	FVD16	2,460	—	Unverified
2	VDM	FVD16	1,396	—	Unverified
3	TGAN-v2 (128x128)	FVD16	1,209	—	Unverified
4	MCVD (64x64)	FVD16	1,143	—	Unverified
5	MoCoGAN-HD (256x256, unconditional)	FVD16	700	—	Unverified
6	MagicVideo (256x256, text-conditional)	FVD16	699	—	Unverified
7	TATS (256x256)	FVD16	635	—	Unverified
8	FIFO-Diffusion	FVD128	596.64	—	Unverified
9	DIGAN (128x128, unconditional)	FVD16	577	—	Unverified
10	LVDM (256x256, unconditional)	FVD16	552	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	MoCoGAN	FVD score	503	—	Unverified
2	Baseline (from LVT)	FVD score	320.9	—	Unverified
3	SVG-FP (from FVD)	FVD score	315.5	—	Unverified
4	CDNA (from FVD)	FVD score	296.5	—	Unverified
5	SV2P (from FVD)	FVD score	262.5	—	Unverified
6	SVG-LP (from vRNN)	FVD score	256.62	—	Unverified
7	WAM	FVD score	159.6	—	Unverified
8	VRNN 1L	FVD score	149.22	—	Unverified
9	SAVP (from vRNN)	FVD score	143.43	—	Unverified
10	Hier-VRNN	FVD score	143.4	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	MoCoGAN-HD (128x128)	FVD 16	183.6	—	Unverified
2	TATS (128x128)	FVD 16	132.6	—	Unverified
3	Long-video GAN (256x256)	FVD 16	116.5	—	Unverified
4	DIGAN (128x128)	FVD 16	114.6	—	Unverified
5	Long-video GAN (128x128)	FVD 16	107.5	—	Unverified
6	LVDM (256x256)	FVD 16	95.2	—	Unverified
7	DDMI	FVD 16	66.25	—	Unverified
8	Latte + LeanVAE	FVD 16	49.59	—	Unverified
9	StyleSV (256x256)	FVD 16	49	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	Video Diffusion Model	Inception Score	57	—	Unverified
2	TGAN-ODE	Inception Score	15.2	—	Unverified
3	TGAN-F	Inception Score	13.62	—	Unverified
4	MoCoGAN	Inception Score	12.42	—	Unverified
5	MoCoGAN-MDP	Inception Score	11.86	—	Unverified
6	TGAN-SVC	Inception Score	11.85	—	Unverified
7	VGAN	Inception Score	8.18	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	TGAN-F	Inception Score	22.91	—	Unverified
2	TGANv2	Inception Score	21.45	—	Unverified
3	TGANv2-ODE	Inception Score	21.02	—	Unverified
4	MoCoGAN	Inception Score	12.42	—	Unverified
5	MoCoGAN-MDP	Inception Score	11.86	—	Unverified
6	TGAN-SVC	Inception Score	11.85	—	Unverified
7	VGAN	Inception Score	8.18	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	Imagen original (constant=6)	CLIP R-Precision	92.12	—	Unverified
2	Imagen fully distilled (oscillate (15,1))	CLIP R-Precision	90.97	—	Unverified
3	Imagen distilled (constant=6)	CLIP R-Precision	90.88	—	Unverified
4	Imagen original (oscillate(15,1))	CLIP R-Precision	89.91	—	Unverified
5	Imagen fully distilled (constant=6)	CLIP R-Precision	89.68	—	Unverified
6	Imagen distilled (oscillate (15,1))	CLIP R-Precision	88.78	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	DIGAN (256x256)	FVD16	156.7	—	Unverified
2	MoCoGAN-HD (128x128)	FVD16	144.7	—	Unverified
3	DIGAN (128x128)	FVD16	128.1	—	Unverified
4	LVDM (256x256)	FVD16	99	—	Unverified
5	TATS (128x128)	FVD16	94.6	—	Unverified
6	StyleSV (256x256)	FVD16	82.6	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	TGANv2 (2020)	Inception Score	28.87	—	Unverified
2	DVD-GAN	Inception Score	27.38	—	Unverified
3	VideoGPT	Inception Score	24.69	—	Unverified
4	TGANv2	Inception Score	24.34	—	Unverified
5	TGAN-F	Inception Score	22.91	—	Unverified
6	TGANv2-ODE	Inception Score	21.02	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	DVD-GAN	FVD	31.1	—	Unverified
2	MAGVIT	FVD	9.9	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	INR-V	FVD16	144	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	DVD-GAN	FID	2.16	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	DVD-GAN	FID	12.92	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	DiT-XL/2 + CVAE-FT-SE	FID	8.59	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	VideoAssembler (Zero-Shot, 256x256, class-conditional)	FVD16	252	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	PG-SWGAN-3D	FID	404.1	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	StyleSV	FVD16	207.2	—	Unverified