Video Generation

( Various Video Generation Tasks. Gif credit: MaGViT )

Papers

Recently Added Most Hyped Most Active Needs Verification Most Verified

Showing 701–750 of 1466 papers

Title	Date	Tasks	Status
TASTE-Rob: Advancing Video Generation of Task-Oriented Hand-Object Interaction for Generalizable Robotic Manipulation	Mar 14, 2025	Imitation LearningObject	—Unverified
TC4D: Trajectory-Conditioned Text-to-4D Generation	Mar 26, 2024	Scene GenerationVideo Generation	—Unverified
TCAQ-DM: Timestep-Channel Adaptive Quantization for Diffusion Models	Dec 21, 2024	QuantizationVideo Generation	—Unverified
Teaching Video Diffusion Model with Latent Physical Phenomenon Knowledge	Nov 18, 2024	Video Generation	—Unverified
Technical Report: Competition Solution For Modelscope-Sora	Sep 24, 2024	Text-to-Video GenerationVideo Description	—Unverified
Teller: Real-Time Streaming Audio-Driven Portrait Animation with Autoregressive Motion Generation	Mar 24, 2025	Motion GenerationPortrait Animation	—Unverified
Temporal Regularization Makes Your Video Generator Stronger	Mar 19, 2025	DiversityVideo Generation	—Unverified
TesserAct: Learning 4D Embodied World Models	Apr 29, 2025	Novel View SynthesisVideo Generation	—Unverified
Text2Sign: Towards Sign Language Production Using Neural Machine Translation and Generative Adversarial Networks	Jan 2, 2020	Generative Adversarial NetworkMachine Translation	—Unverified
Text2Story: Advancing Video Storytelling with Text Guidance	Mar 8, 2025	FormImage Generation	—Unverified
Text-Animator: Controllable Visual Text Video Generation	Jun 25, 2024	Text GenerationVideo Generation	—Unverified
Text-driven Video Prediction	Oct 6, 2022	Causal InferencePrediction	—Unverified
The Art of Storytelling: Multi-Agent Generative AI for Dynamic Multimodal Narratives	Sep 17, 2024	text-to-speechText to Speech	—Unverified
The Dawn of Video Generation: Preliminary Explorations with SORA-like Models	Oct 7, 2024	Video Generation	—Unverified
The Devil is in the Prompts: Retrieval-Augmented Prompt Optimization for Text-to-Video Generation	Apr 16, 2025	SentenceText-to-Video Generation	—Unverified
The Lost Melody: Empirical Observations on Text-to-Video Generation From A Storytelling Perspective	May 13, 2024	Text-to-Video GenerationVideo Generation	—Unverified
The Power of Sound (TPoS): Audio Reactive Video Generation with Stable Diffusion	Sep 8, 2023	Video Generation	—Unverified
The Role of Video Generation in Enhancing Data-Limited Action Understanding	May 26, 2025	Action RecognitionAction Understanding	—Unverified
The Tug-of-War Between Deepfake Generation and Detection	Jul 8, 2024	Face SwappingMisinformation	—Unverified
Think Before You Diffuse: LLMs-Guided Physics-Aware Video Generation	May 27, 2025	Large Language ModelMultimodal Large Language Model	—Unverified
This&That: Language-Gesture Controlled Video Generation for Robot Planning	Jul 8, 2024	Task PlanningVideo Generation	—Unverified
Through-The-Mask: Mask-based Motion Trajectories for Image-to-Video Generation	Jan 6, 2025	Image to Video GenerationObject	—Unverified
Tiger200K: Manually Curated High Visual Quality Video Dataset from UGC Platform	Apr 21, 2025	Boundary DetectionOptical Character Recognition (OCR)	—Unverified
TIP-I2V: A Million-Scale Real Text and Image Prompt Dataset for Image-to-Video Generation	Nov 5, 2024	Image to Video GenerationMisinformation	—Unverified
TIV-Diffusion: Towards Object-Centric Movement for Text-driven Image to Video Generation	Dec 13, 2024	Image to Video GenerationObject	—Unverified
TiVGAN: Text to Image to Video Generation with Step-by-Step Evolutionary Generator	Sep 4, 2020	Generative Adversarial NetworkImage Generation	—Unverified
TokenMotion: Decoupled Motion Control via Token Disentanglement for Human-centric Video Generation	Apr 11, 2025	DisentanglementVideo Generation	—Unverified
ToonifyGB: StyleGAN-based Gaussian Blendshapes for 3D Stylized Head Avatars	May 15, 2025	Image StylizationVideo Generation	—Unverified
Tora2: Motion and Appearance Customized Diffusion Transformer for Multi-Entity Video Generation	Jul 8, 2025	Video Generation	—Unverified
Zeroth-order Informed Fine-Tuning for Diffusion Model: A Recursive Likelihood Ratio Optimizer	Feb 2, 2025	Reinforcement Learning (RL)Video Generation	—Unverified
Reenact Anything: Semantic Video Motion Transfer Using Motion-Textual Inversion	Aug 1, 2024	Face ReenactmentVideo Generation	—Unverified
VidGen-1M: A Large-Scale Dataset for Text-to-video Generation	Aug 5, 2024	Text-to-Video GenerationVideo Generation	—Unverified
Aquarius: A Family of Industry-Level Video Generation Models for Marketing Scenarios	May 14, 2025	MarketingVideo Generation	—Unverified
Face Consistency Benchmark for GenAI Video	May 16, 2025	Video Generation	—Unverified
360DVD: Controllable Panorama Video Generation with 360-Degree Video Diffusion Model	Jan 12, 2024	Video Generation	—Unverified
3DDesigner: Towards Photorealistic 3D Object Generation and Editing with Text-guided Diffusion Models	Nov 25, 2022	DenoisingNeRF	—Unverified
3D Gaussian Splatting with Normal Information for Mesh Extraction and Improved Rendering	Jan 14, 2025	Novel View SynthesisVideo Generation	—Unverified
3DGS-Enhancer: Enhancing Unbounded 3D Gaussian Splatting with View-consistent 2D Diffusion Priors	Oct 21, 2024	3DGSDecoder	—Unverified
3DTrajMaster: Mastering 3D Trajectory for Multi-Entity Motion in Video Generation	Dec 10, 2024	Video Generation	—Unverified
4Diffusion: Multi-view Video Diffusion Model for 4D Generation	May 31, 2024	NeRFVideo Generation	—Unverified
4Real: Towards Photorealistic 4D Scene Generation via Video Diffusion Models	Jun 11, 2024	Scene GenerationVideo Generation	—Unverified
Abductive Ego-View Accident Video Understanding for Safe Driving Perception	Mar 1, 2024	Objectobject-detection	—Unverified
AC3D: Analyzing and Improving 3D Camera Control in Video Diffusion Transformers	Nov 27, 2024	Camera Pose EstimationPose Estimation	—Unverified
Accelerating Diffusion Sampling via Exploiting Local Transition Coherence	Mar 12, 2025	DenoisingVideo Generation	—Unverified
Accelerating Image Generation with Sub-path Linear Approximation Model	Apr 22, 2024	DenoisingGPU	—Unverified
Accelerating Video Diffusion Models via Distribution Matching	Dec 8, 2024	DenoisingVideo Generation	—Unverified
AccidentSim: Generating Physically Realistic Vehicle Collision Videos from Real-World Accident Reports	Mar 26, 2025	Autonomous DrivingNeRF	—Unverified
ACDC: Autoregressive Coherent Multimodal Generation using Diffusion Correction	Oct 7, 2024	multimodal generationStory Generation	—Unverified
Action2Dialogue: Generating Character-Centric Narratives from Scene-Level Prompts	May 22, 2025	Dialogue GenerationLarge Language Model	—Unverified
Action Concept Grounding Network for Semantically-Consistent Video Generation	Sep 28, 2020	Action Recognitionobject-detection	—Unverified

Show:10 25 50

← PrevPage 15 of 30Next →

All datasets UCF-101 BAIR Robot Pushing Sky Time-lapse UCF-101 16 frames, 64x64, Unconditional UCF-101 16 frames, Unconditional, Single GPU LAION-400M Taichi UCF-101 16 frames, 128x128, Unconditional Kinetics-600 12 frames, 64x64 How2Sign Kinetics-600 12 frames, 128x128 Kinetics-600 48 frames, 64x64

Benchmark Results

#	Model	Metric	Claimed	Verified	Status
1	MCVD	FVD16	2,460	—	Unverified
2	VDM	FVD16	1,396	—	Unverified
3	TGAN-v2 (128x128)	FVD16	1,209	—	Unverified
4	MCVD (64x64)	FVD16	1,143	—	Unverified
5	MoCoGAN-HD (256x256, unconditional)	FVD16	700	—	Unverified
6	MagicVideo (256x256, text-conditional)	FVD16	699	—	Unverified
7	TATS (256x256)	FVD16	635	—	Unverified
8	FIFO-Diffusion	FVD128	596.64	—	Unverified
9	DIGAN (128x128, unconditional)	FVD16	577	—	Unverified
10	LVDM (256x256, unconditional)	FVD16	552	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	MoCoGAN	FVD score	503	—	Unverified
2	Baseline (from LVT)	FVD score	320.9	—	Unverified
3	SVG-FP (from FVD)	FVD score	315.5	—	Unverified
4	CDNA (from FVD)	FVD score	296.5	—	Unverified
5	SV2P (from FVD)	FVD score	262.5	—	Unverified
6	SVG-LP (from vRNN)	FVD score	256.62	—	Unverified
7	WAM	FVD score	159.6	—	Unverified
8	VRNN 1L	FVD score	149.22	—	Unverified
9	SAVP (from vRNN)	FVD score	143.43	—	Unverified
10	Hier-VRNN	FVD score	143.4	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	MoCoGAN-HD (128x128)	FVD 16	183.6	—	Unverified
2	TATS (128x128)	FVD 16	132.6	—	Unverified
3	Long-video GAN (256x256)	FVD 16	116.5	—	Unverified
4	DIGAN (128x128)	FVD 16	114.6	—	Unverified
5	Long-video GAN (128x128)	FVD 16	107.5	—	Unverified
6	LVDM (256x256)	FVD 16	95.2	—	Unverified
7	DDMI	FVD 16	66.25	—	Unverified
8	Latte + LeanVAE	FVD 16	49.59	—	Unverified
9	StyleSV (256x256)	FVD 16	49	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	Video Diffusion Model	Inception Score	57	—	Unverified
2	TGAN-ODE	Inception Score	15.2	—	Unverified
3	TGAN-F	Inception Score	13.62	—	Unverified
4	MoCoGAN	Inception Score	12.42	—	Unverified
5	MoCoGAN-MDP	Inception Score	11.86	—	Unverified
6	TGAN-SVC	Inception Score	11.85	—	Unverified
7	VGAN	Inception Score	8.18	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	TGAN-F	Inception Score	22.91	—	Unverified
2	TGANv2	Inception Score	21.45	—	Unverified
3	TGANv2-ODE	Inception Score	21.02	—	Unverified
4	MoCoGAN	Inception Score	12.42	—	Unverified
5	MoCoGAN-MDP	Inception Score	11.86	—	Unverified
6	TGAN-SVC	Inception Score	11.85	—	Unverified
7	VGAN	Inception Score	8.18	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	Imagen original (constant=6)	CLIP R-Precision	92.12	—	Unverified
2	Imagen fully distilled (oscillate (15,1))	CLIP R-Precision	90.97	—	Unverified
3	Imagen distilled (constant=6)	CLIP R-Precision	90.88	—	Unverified
4	Imagen original (oscillate(15,1))	CLIP R-Precision	89.91	—	Unverified
5	Imagen fully distilled (constant=6)	CLIP R-Precision	89.68	—	Unverified
6	Imagen distilled (oscillate (15,1))	CLIP R-Precision	88.78	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	DIGAN (256x256)	FVD16	156.7	—	Unverified
2	MoCoGAN-HD (128x128)	FVD16	144.7	—	Unverified
3	DIGAN (128x128)	FVD16	128.1	—	Unverified
4	LVDM (256x256)	FVD16	99	—	Unverified
5	TATS (128x128)	FVD16	94.6	—	Unverified
6	StyleSV (256x256)	FVD16	82.6	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	TGANv2 (2020)	Inception Score	28.87	—	Unverified
2	DVD-GAN	Inception Score	27.38	—	Unverified
3	VideoGPT	Inception Score	24.69	—	Unverified
4	TGANv2	Inception Score	24.34	—	Unverified
5	TGAN-F	Inception Score	22.91	—	Unverified
6	TGANv2-ODE	Inception Score	21.02	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	DVD-GAN	FVD	31.1	—	Unverified
2	MAGVIT	FVD	9.9	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	INR-V	FVD16	144	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	DVD-GAN	FID	2.16	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	DVD-GAN	FID	12.92	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	DiT-XL/2 + CVAE-FT-SE	FID	8.59	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	VideoAssembler (Zero-Shot, 256x256, class-conditional)	FVD16	252	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	PG-SWGAN-3D	FID	404.1	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	StyleSV	FVD16	207.2	—	Unverified