Video Generation

( Various Video Generation Tasks. Gif credit: MaGViT )

Papers

Recently Added Most Hyped Most Active Needs Verification Most Verified

Showing 801–850 of 1466 papers

Title	Date	Tasks	Status
3D Gaussian Splatting with Normal Information for Mesh Extraction and Improved Rendering	Jan 14, 2025	Novel View SynthesisVideo Generation	—Unverified
LayerAnimate: Layer-specific Control for Animation	Jan 14, 2025	Video Generation	—Unverified
BlobGEN-Vid: Compositional Text-to-Video Generation with Blob Video Representations	Jan 13, 2025	ObjectText-to-Video Generation	—Unverified
Training-Free Motion-Guided Video Generation with Enhanced Temporal Consistency Using Motion Consistency Loss	Jan 13, 2025	Feature CorrelationVideo Generation	—Unverified
Qffusion: Controllable Portrait Video Editing via Quadrant-Grid Attention Learning	Jan 11, 2025	Video EditingVideo Generation	—Unverified
HeteroLLM: Accelerating Large Language Model Inference on Mobile SoCs platform with Heterogeneous AI Accelerators	Jan 11, 2025	Language ModelingLanguage Modelling	—Unverified
VideoAuteur: Towards Long Narrative Video Generation	Jan 10, 2025	Video Generation	—Unverified
Multi-subject Open-set Personalization in Video Generation	Jan 10, 2025	Video Generation	—Unverified
MEt3R: Measuring Multi-View Consistency in Generated Images	Jan 10, 2025	Image GenerationVideo Generation	—Unverified
Progressive Growing of Video Tokenizers for Highly Compressed Latent Spaces	Jan 9, 2025	Video Generation	—Unverified
LipGen: Viseme-Guided Lip Video Generation for Enhancing Visual Speech Recognition	Jan 8, 2025	Lip Readingspeech-recognition	—Unverified
ConceptMaster: Multi-Concept Video Customization on Diffusion Transformer Models Without Test-Time Tuning	Jan 8, 2025	Text-to-Video GenerationVideo Generation	—Unverified
Tuning-Free Long Video Generation via Global-Local Collaborative Diffusion	Jan 8, 2025	DenoisingDiversity	—Unverified
Motion-Aware Generative Frame Interpolation	Jan 7, 2025	Video Generation	—Unverified
Brick-Diffusion: Generating Long Videos with Brick-to-Wall Denoising	Jan 6, 2025	DenoisingVideo Generation	—Unverified
Through-The-Mask: Mask-based Motion Trajectories for Image-to-Video Generation	Jan 6, 2025	Image to Video GenerationObject	—Unverified
License Plate Images Generation with Diffusion Models	Jan 6, 2025	License Plate RecognitionSynthetic Data Generation	—Unverified
GS-DiT: Advancing Video Generation with Pseudo 4D Gaussian Fields through Efficient Dense 3D Point Tracking	Jan 5, 2025	Novel View SynthesisPoint Tracking	—Unverified
JOG3R: Towards 3D-Consistent Video Generators	Jan 2, 2025	Camera Pose EstimationPose Estimation	—Unverified
VideoAnydoor: High-fidelity Video Object Insertion with Precise Motion Control	Jan 2, 2025	Talking Head GenerationVideo Generation	—Unverified
Free-Form Motion Control: A Synthetic Video Generation Dataset with Controllable Camera and Object Motions	Jan 2, 2025	FormVideo Generation	—Unverified
Mask^2DiT: Dual Mask-based Diffusion Transformer for Multi-Scene Long Video Generation	Jan 1, 2025	text annotationVideo Generation	—Unverified
GS-DiT: Advancing Video Generation with Dynamic 3D Gaussian Fields through Efficient Dense 3D Point Tracking	Jan 1, 2025	Novel View SynthesisPoint Tracking	—Unverified
Video-Bench: Human-Aligned Video Generation Benchmark	Jan 1, 2025	Large Language ModelVideo Generation	—Unverified
Dynamic Camera Poses and Where to Find Them	Jan 1, 2025	Point TrackingPose Estimation	—Unverified
IM-Zero: Instance-level Motion Controllable Video Generation in a Zero-shot Manner	Jan 1, 2025	Motion GenerationText-to-Video Generation	—Unverified
Beyond Text: Implementing Multimodal Large Language Model-Powered Multi-Agent Systems Using a No-Code Platform	Jan 1, 2025	Code GenerationImage Generation	—Unverified
Co-Speech Gesture Video Generation with Implicit Motion-Audio Entanglement	Jan 1, 2025	Gesture GenerationMotion Generation	—Unverified
Patch Matters: Training-free Fine-grained Image Caption Enhancement via Local Perception	Jan 1, 2025	Image CaptioningImage Generation	—Unverified
PatchVSR: Breaking Video Diffusion Resolution Limits with Patch-wise Video Super-Resolution	Jan 1, 2025	4kSuper-Resolution	—Unverified
DriveScape: High-Resolution Driving Video Generation by Multi-View Feature Fusion	Jan 1, 2025	Autonomous DrivingDenoising	—Unverified
Diffusion-based Realistic Listening Head Generation via Hybrid Motion Modeling	Jan 1, 2025	Motion GenerationVideo Generation	—Unverified
STDD: Spatio-Temporal Dual Diffusion for Video Generation	Jan 1, 2025	Text-to-Video GenerationVideo Generation	—Unverified
Q-Bench-Video: Benchmark the Video Quality Understanding of LMMs	Jan 1, 2025	Multiple-choiceVideo Generation	—Unverified
ByTheWay: Boost Your Text-to-Video Generation Model to Higher Quality in a Training-free Way	Jan 1, 2025	Text-to-Video GenerationVideo Generation	—Unverified
Satellite to GroundScape - Large-scale Consistent Ground View Generation from Satellite Views	Jan 1, 2025	DenoisingVideo Generation	—Unverified
I2VGuard: Safeguarding Images against Misuse in Diffusion-based Image-to-Video Models	Jan 1, 2025	Adversarial AttackImage to Video Generation	—Unverified
MVPortrait: Text-Guided Motion and Emotion Control for Multi-view Vivid Portrait Animation	Jan 1, 2025	Portrait AnimationVideo Generation	—Unverified
EIDT-V: Exploiting Intersections in Diffusion Trajectories for Model-Agnostic, Zero-Shot, Training-Free Text-to-Video Generation	Jan 1, 2025	Image GenerationText-to-Video Generation	—Unverified
DreamDrive: Generative 4D Scene Modeling from Street View Images	Dec 31, 2024	Autonomous DrivingNeural Rendering	—Unverified
Gender Bias in Text-to-Video Generation Models: A case study of Sora	Dec 30, 2024	Text-to-Video GenerationVideo Generation	—Unverified
Dialogue Director: Bridging the Gap in Dialogue Visualization for Multimodal Storytelling	Dec 30, 2024	Retrieval-augmented GenerationStory Visualization	—Unverified
ILDiff: Generate Transparent Animated Stickers by Implicit Layout Distillation	Dec 30, 2024	Image MattingVideo Generation	—Unverified
Generative Video Propagation	Dec 27, 2024	Image to Video GenerationVideo Generation	—Unverified
VideoMaker: Zero-shot Customized Video Generation with the Inherent Force of Video Diffusion Models	Dec 27, 2024	Video Generation	CodeCode Available
DrivingGPT: Unifying Driving World Modeling and Planning with Multi-modal Autoregressive Transformers	Dec 24, 2024	NavSimTrajectory Planning	—Unverified
ZeroHSI: Zero-Shot 4D Human-Scene Interaction by Video Generation	Dec 24, 2024	Human-Object Interaction DetectionVideo Generation	—Unverified
Video Is Worth a Thousand Images: Exploring the Latest Trends in Long Video Generation	Dec 24, 2024	Video Generation	—Unverified
FFA Sora, video generation as fundus fluorescein angiography simulator	Dec 23, 2024	Privacy PreservingQuestion Answering	—Unverified
Enhancing Multi-Text Long Video Generation Consistency without Tuning: Time-Frequency Analysis, Prompt Alignment, and Theory	Dec 23, 2024	Video Generation	—Unverified

Show:10 25 50

← PrevPage 17 of 30Next →

All datasets UCF-101 BAIR Robot Pushing Sky Time-lapse UCF-101 16 frames, 64x64, Unconditional UCF-101 16 frames, Unconditional, Single GPU LAION-400M Taichi UCF-101 16 frames, 128x128, Unconditional Kinetics-600 12 frames, 64x64 How2Sign Kinetics-600 12 frames, 128x128 Kinetics-600 48 frames, 64x64

Benchmark Results

#	Model	Metric	Claimed	Verified	Status
1	MCVD	FVD16	2,460	—	Unverified
2	VDM	FVD16	1,396	—	Unverified
3	TGAN-v2 (128x128)	FVD16	1,209	—	Unverified
4	MCVD (64x64)	FVD16	1,143	—	Unverified
5	MoCoGAN-HD (256x256, unconditional)	FVD16	700	—	Unverified
6	MagicVideo (256x256, text-conditional)	FVD16	699	—	Unverified
7	TATS (256x256)	FVD16	635	—	Unverified
8	FIFO-Diffusion	FVD128	596.64	—	Unverified
9	DIGAN (128x128, unconditional)	FVD16	577	—	Unverified
10	LVDM (256x256, unconditional)	FVD16	552	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	MoCoGAN	FVD score	503	—	Unverified
2	Baseline (from LVT)	FVD score	320.9	—	Unverified
3	SVG-FP (from FVD)	FVD score	315.5	—	Unverified
4	CDNA (from FVD)	FVD score	296.5	—	Unverified
5	SV2P (from FVD)	FVD score	262.5	—	Unverified
6	SVG-LP (from vRNN)	FVD score	256.62	—	Unverified
7	WAM	FVD score	159.6	—	Unverified
8	VRNN 1L	FVD score	149.22	—	Unverified
9	SAVP (from vRNN)	FVD score	143.43	—	Unverified
10	Hier-VRNN	FVD score	143.4	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	MoCoGAN-HD (128x128)	FVD 16	183.6	—	Unverified
2	TATS (128x128)	FVD 16	132.6	—	Unverified
3	Long-video GAN (256x256)	FVD 16	116.5	—	Unverified
4	DIGAN (128x128)	FVD 16	114.6	—	Unverified
5	Long-video GAN (128x128)	FVD 16	107.5	—	Unverified
6	LVDM (256x256)	FVD 16	95.2	—	Unverified
7	DDMI	FVD 16	66.25	—	Unverified
8	Latte + LeanVAE	FVD 16	49.59	—	Unverified
9	StyleSV (256x256)	FVD 16	49	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	Video Diffusion Model	Inception Score	57	—	Unverified
2	TGAN-ODE	Inception Score	15.2	—	Unverified
3	TGAN-F	Inception Score	13.62	—	Unverified
4	MoCoGAN	Inception Score	12.42	—	Unverified
5	MoCoGAN-MDP	Inception Score	11.86	—	Unverified
6	TGAN-SVC	Inception Score	11.85	—	Unverified
7	VGAN	Inception Score	8.18	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	TGAN-F	Inception Score	22.91	—	Unverified
2	TGANv2	Inception Score	21.45	—	Unverified
3	TGANv2-ODE	Inception Score	21.02	—	Unverified
4	MoCoGAN	Inception Score	12.42	—	Unverified
5	MoCoGAN-MDP	Inception Score	11.86	—	Unverified
6	TGAN-SVC	Inception Score	11.85	—	Unverified
7	VGAN	Inception Score	8.18	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	Imagen original (constant=6)	CLIP R-Precision	92.12	—	Unverified
2	Imagen fully distilled (oscillate (15,1))	CLIP R-Precision	90.97	—	Unverified
3	Imagen distilled (constant=6)	CLIP R-Precision	90.88	—	Unverified
4	Imagen original (oscillate(15,1))	CLIP R-Precision	89.91	—	Unverified
5	Imagen fully distilled (constant=6)	CLIP R-Precision	89.68	—	Unverified
6	Imagen distilled (oscillate (15,1))	CLIP R-Precision	88.78	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	DIGAN (256x256)	FVD16	156.7	—	Unverified
2	MoCoGAN-HD (128x128)	FVD16	144.7	—	Unverified
3	DIGAN (128x128)	FVD16	128.1	—	Unverified
4	LVDM (256x256)	FVD16	99	—	Unverified
5	TATS (128x128)	FVD16	94.6	—	Unverified
6	StyleSV (256x256)	FVD16	82.6	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	TGANv2 (2020)	Inception Score	28.87	—	Unverified
2	DVD-GAN	Inception Score	27.38	—	Unverified
3	VideoGPT	Inception Score	24.69	—	Unverified
4	TGANv2	Inception Score	24.34	—	Unverified
5	TGAN-F	Inception Score	22.91	—	Unverified
6	TGANv2-ODE	Inception Score	21.02	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	DVD-GAN	FVD	31.1	—	Unverified
2	MAGVIT	FVD	9.9	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	INR-V	FVD16	144	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	DVD-GAN	FID	2.16	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	DVD-GAN	FID	12.92	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	DiT-XL/2 + CVAE-FT-SE	FID	8.59	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	VideoAssembler (Zero-Shot, 256x256, class-conditional)	FVD16	252	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	PG-SWGAN-3D	FID	404.1	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	StyleSV	FVD16	207.2	—	Unverified