Text-to-Video Generation

Ma grand-mère m’a raconté que quand elle était étudiante, elle avait un petit-ami. À l’âge de 18 ans, il a dû partir pour le service militaire, elle ne l’a pas attendu et elle a épousé quelqu’un d’autre. Quand ma grand-mère avait 58-59 ans, un homme (son premier amour) lui a envoyé une demande d’amis sur un réseau social, ils ont commencé à parler... En moins de six mois, ils ont décidé de se voir. Le trajet en train a duré deux jours et ils se sont finalement rencontrés. Cela fait maintenant deux ans qu’ils habitent ensemble et qu’ils nous rendent visite de temps en temps. Je réalise maintenant que leur amour l’un envers l’autre n’a jamais cessé.

Papers

Recently Added Most Hyped Most Active Needs Verification Most Verified

Showing 1–50 of 201 papers

Title	Date	Tasks	Status	Hype
Open-Sora: Democratizing Efficient Video Production for All	Dec 29, 2024	AllImage Generation	CodeCode Available	13
CogVideoX: Text-to-Video Diffusion Models with An Expert Transformer	Aug 12, 2024	Text-to-Video GenerationVideo Alignment	CodeCode Available	11
VideoCrafter2: Overcoming Data Limitations for High-Quality Video Diffusion Models	Jan 17, 2024	Text-to-Video GenerationVideo Generation	CodeCode Available	9
Pyramidal Flow Matching for Efficient Video Generative Modeling	Oct 8, 2024	GPUText-to-Video Generation	CodeCode Available	7
CogVideo: Large-scale Pretraining for Text-to-Video Generation via Transformers	May 29, 2022	Text-to-Video GenerationVideo Generation	CodeCode Available	6
ChronoMagic-Bench: A Benchmark for Metamorphic Evaluation of Text-to-Time-lapse Video Generation	Jun 26, 2024	Text-to-Video GenerationVideo Generation	CodeCode Available	5
MagicTime: Time-lapse Video Generation Models as Metamorphic Simulators	Apr 7, 2024	Text-to-Video GenerationVideo Generation	CodeCode Available	5
StreamingT2V: Consistent, Dynamic, and Extendable Long Video Generation from Text	Mar 21, 2024	Text-to-Video GenerationVideo Generation	CodeCode Available	5
Mora: Enabling Generalist Video Generation via A Multi-Agent Framework	Mar 20, 2024	Image to Video GenerationText-to-Video Generation	CodeCode Available	5
Latte: Latent Diffusion Transformer for Video Generation	Jan 5, 2024	Text-to-Video GenerationVideo Generation	CodeCode Available	5
VideoCrafter1: Open Diffusion Models for High-Quality Video Generation	Oct 30, 2023	Text-to-Video GenerationVideo Generation	CodeCode Available	5
Vchitect-2.0: Parallel Transformer for Scaling Up Video Diffusion Models	Jan 14, 2025	BenchmarkingText-to-Video Generation	CodeCode Available	4
TransPixeler: Advancing Text-to-Video Generation with Transparency	Jan 6, 2025	Text-to-Video GenerationVideo Generation	CodeCode Available	4
Identity-Preserving Text-to-Video Generation by Frequency Decomposition	Nov 26, 2024	Human-Domain Subject-to-VideoImage to Video Generation	CodeCode Available	4
MotionClone: Training-Free Motion Cloning for Controllable Video Generation	Jun 8, 2024	DenoisingMotion Generation	CodeCode Available	4
CameraCtrl: Enabling Camera Control for Text-to-Video Generation	Apr 2, 2024	Text-to-Video GenerationVideo Generation	CodeCode Available	4
Video-LaVIT: Unified Video-Language Pre-training with Decoupled Visual-Motional Tokenization	Feb 5, 2024	Science Question AnsweringText-to-Video Generation	CodeCode Available	4
Text2Video-Zero: Text-to-Image Diffusion Models are Zero-Shot Video Generators	Mar 23, 2023	Image GenerationText-to-Video Generation	CodeCode Available	4
VideoFusion: Decomposed Diffusion Models for High-Quality Video Generation	Mar 15, 2023	Code GenerationDenoising	CodeCode Available	4
Tune-A-Video: One-Shot Tuning of Image Diffusion Models for Text-to-Video Generation	Dec 22, 2022	Style TransferText-to-Video Generation	CodeCode Available	4
FlashVideo:Flowing Fidelity to Detail for Efficient High-Resolution Video Generation	Feb 7, 2025	Computational EfficiencyText-to-Video Generation	CodeCode Available	3
GameGen-X: Interactive Open-world Game Video Generation	Nov 1, 2024	Text-to-Video GenerationVideo Generation	CodeCode Available	3
Evaluation of Text-to-Video Generation Models: A Dynamics Perspective	Jul 1, 2024	Text-to-Video GenerationVideo Generation	CodeCode Available	3
VideoTetris: Towards Compositional Text-to-Video Generation	Jun 6, 2024	DenoisingText-to-Video Generation	CodeCode Available	3
FIFO-Diffusion: Generating Infinite Videos from Text without Training	May 19, 2024	Text-to-Video GenerationVideo Generation	CodeCode Available	3
From Sora What We Can See: A Survey of Text-to-Video Generation	May 17, 2024	Text-to-Video GenerationVideo Generation	CodeCode Available	3
Lumiere: A Space-Time Diffusion Model for Video Generation	Jan 23, 2024	Super-ResolutionText-to-Video Generation	CodeCode Available	3
Show-1: Marrying Pixel and Latent Diffusion Models for Text-to-Video Generation	Sep 27, 2023	GPUText-to-Video Generation	CodeCode Available	3
ModelScope Text-to-Video Technical Report	Aug 12, 2023	DenoisingImage Generation	CodeCode Available	3
Follow Your Pose: Pose-Guided Text-to-Video Generation using Pose-Free Videos	Apr 3, 2023	Image GenerationText to Image Generation	CodeCode Available	3
On-device Sora: Enabling Training-Free Diffusion-based Text-to-Video Generation for Mobile Devices	Mar 31, 2025	DenoisingModel Optimization	CodeCode Available	2
On-device Sora: Enabling Training-Free Diffusion-based Text-to-Video Generation for Mobile Devices	Feb 5, 2025	DenoisingModel Optimization	CodeCode Available	2
Magic Mirror: ID-Preserved Video Generation in Video Diffusion Transformers	Jan 7, 2025	DiversityText-to-Video Generation	CodeCode Available	2
Generate Any Scene: Evaluating and Improving Text-to-Vision Generation with Scene Graph Programming	Dec 11, 2024	Text to 3DText-to-Image Generation	CodeCode Available	2
Divot: Diffusion Powers Video Tokenizer for Comprehension and Generation	Dec 5, 2024	Image ComprehensionRepresentation Learning	CodeCode Available	2
PhyT2V: LLM-Guided Iterative Self-Refinement for Physics-Grounded Text-to-Video Generation	Nov 30, 2024	Text-to-Video GenerationVideo Generation	CodeCode Available	2
T2V-CompBench: A Comprehensive Benchmark for Compositional Text-to-video Generation	Jul 19, 2024	AttributeLanguage Modeling	CodeCode Available	2
GenAI Arena: An Open Evaluation Platform for Generative Models	Jun 6, 2024	Image GenerationInstruction Following	CodeCode Available	2
Video Diffusion Models: A Survey	May 6, 2024	SurveyText-to-Video Generation	CodeCode Available	2
VidProM: A Million-scale Real Prompt-Gallery Dataset for Text-to-Video Diffusion Models	Mar 10, 2024	Copy DetectionImage Generation	CodeCode Available	2
FreeInit: Bridging Initialization Gap in Video Diffusion Models	Dec 12, 2023	DenoisingText-to-Video Generation	CodeCode Available	2
StyleCrafter: Enhancing Stylized Text-to-Video Generation with Style Adapter	Dec 1, 2023	DisentanglementText-to-Video Generation	CodeCode Available	2
VideoComposer: Compositional Video Synthesis with Motion Controllability	Jun 3, 2023	Image GenerationText-to-Video Generation	CodeCode Available	2
Control-A-Video: Controllable Text-to-Video Diffusion Models with Motion Prior and Reward Feedback Learning	May 23, 2023	Image GenerationOptical Flow Estimation	CodeCode Available	2
ControlVideo: Training-free Controllable Text-to-Video Generation	May 22, 2023	Image GenerationText-to-Video Generation	CodeCode Available	2
CelebV-Text: A Large-Scale Facial Text-Video Dataset	Mar 26, 2023	Text GenerationText-to-Video Generation	CodeCode Available	2
Make-An-Audio: Text-To-Audio Generation with Prompt-Enhanced Diffusion Models	Jan 30, 2023	Audio GenerationText-to-Video Generation	CodeCode Available	2
MAGVIT: Masked Generative Video Transformer	Dec 10, 2022	Multi-Task LearningText-to-Video Generation	CodeCode Available	2
Latent Video Diffusion Models for High-Fidelity Long Video Generation	Nov 23, 2022	DenoisingImage Generation	CodeCode Available	2
VCapsBench: A Large-scale Fine-grained Benchmark for Video Caption Quality Evaluation	May 29, 2025	Caption GenerationLanguage Modeling	CodeCode Available	1

Show:10 25 50

← PrevPage 1 of 5Next →

All datasets MSR-VTT UCF-101 EvalCrafter Text-to-Video (ECTV) Dataset Something-Something V2 Kinetics WebVid

Benchmark Results

#	Model	Metric	Claimed	Verified	Status
1	MagicVideo	FVD	998	—	Unverified
2	VideoComposer	FVD	580	—	Unverified
3	ModelScopeT2V	FVD	550	—	Unverified
4	Show-1	FVD	538	—	Unverified
5	TF-T2V	FVD	441	—	Unverified
6	HiGen	FVD	406	—	Unverified
7	PixelDance	FVD	381	—	Unverified
8	VideoPoet	FVD	213	—	Unverified
9	Video-LaVIT	FVD	188.36	—	Unverified
10	Snap Video (288×288)	FVD	110.4	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	MagicVideo (Zero-shot, 256x256)	FVD16	699	—	Unverified
2	Video LDM (Zero-shot, 320x512)	FVD16	550.61	—	Unverified
3	LAVIE (Zero-shot, 320x512)	FVD16	526.3	—	Unverified
4	PYoCo (Zero-shot, 64x64)	FVD16	355.19	—	Unverified
5	VideoPoet	FVD16	355	—	Unverified
6	Lumiere (Zero-shot, 1024x1024)	FVD16	332.49	—	Unverified
7	Snap Video (Zero-shot, 288×288)	FVD16	260.1	—	Unverified
8	W.A.L.T 3B	FVD16	258.1	—	Unverified
9	PixelDance (Zero-shot, 256x256)	FVD16	242.82	—	Unverified
10	Snap Video (Zero-shot, 512x288)	FVD16	200.2	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	VideoCrafter2	Visual Quality	54.82	—	Unverified
2	Show-1	Visual Quality	53.74	—	Unverified
3	VideoCrafter1	Visual Quality	53.08	—	Unverified
4	Lavie	Visual Quality	52.83	—	Unverified
5	ModelScope	Visual Quality	52.47	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	MAGVIT	FVD	79.1	—	Unverified
2	MAGVIT	FVD	28.5	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	NUWA (128×128)	Accuracy	77.9	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	VideoFactory	FVD	292.35	—	Unverified