Text-to-Video Generation

Ma grand-mère m’a raconté que quand elle était étudiante, elle avait un petit-ami. À l’âge de 18 ans, il a dû partir pour le service militaire, elle ne l’a pas attendu et elle a épousé quelqu’un d’autre. Quand ma grand-mère avait 58-59 ans, un homme (son premier amour) lui a envoyé une demande d’amis sur un réseau social, ils ont commencé à parler... En moins de six mois, ils ont décidé de se voir. Le trajet en train a duré deux jours et ils se sont finalement rencontrés. Cela fait maintenant deux ans qu’ils habitent ensemble et qu’ils nous rendent visite de temps en temps. Je réalise maintenant que leur amour l’un envers l’autre n’a jamais cessé.

Papers

Recently Added Most Hyped Most Active Needs Verification Most Verified

Showing 76–100 of 201 papers

Title	Date	Tasks	Status	Hype
GODIVA: Generating Open-DomaIn Videos from nAtural Descriptions	Apr 30, 2021	Text-to-Video GenerationVideo Generation	CodeCode Available	1
Make-A-Video: Text-to-Video Generation without Text-Video Data	Sep 29, 2022	DecoderImage Generation	CodeCode Available	1
Align your Latents: High-Resolution Video Synthesis with Latent Diffusion Models	Apr 18, 2023	Image GenerationSuper-Resolution	CodeCode Available	1
Diverse and Aligned Audio-to-Video Generation via Text-to-Video Model Adaptation	Sep 28, 2023	Text-to-Video GenerationVideo Generation	CodeCode Available	1
MMTrail: A Multimodal Trailer Video Dataset with Language and Music Descriptions	Jul 30, 2024	Audio GenerationImage to Video Generation	CodeCode Available	1
TALC: Time-Aligned Captions for Multi-Scene Text-to-Video Generation	May 7, 2024	Text-to-Video GenerationVideo Generation	CodeCode Available	1
VSTAR: Generative Temporal Nursing for Longer Dynamic Video Synthesis	Mar 20, 2024	Generative Temporal NursingText-to-Video Generation	CodeCode Available	1
GenMAC: Compositional Text-to-Video Generation with Multi-Agent Collaboration	Dec 5, 2024	AttributeHallucination	—Unverified	0
Gender Bias in Text-to-Video Generation Models: A case study of Sora	Dec 30, 2024	Text-to-Video GenerationVideo Generation	—Unverified	0
DisenStudio: Customized Multi-subject Text-to-Video Generation with Disentangled Spatial Control	May 21, 2024	AttributeMotion Generation	—Unverified	0
CustomVideo: Customizing Text-to-Video Generation with Multiple Subjects	Jan 18, 2024	ObjectText-to-Video Generation	—Unverified	0
NewMove: Customizing text-to-video models with novel motions	Dec 7, 2023	Text-to-Video GenerationVideo Generation	—Unverified	0
ByTheWay: Boost Your Text-to-Video Generation Model to Higher Quality in a Training-free Way	Jan 1, 2025	Text-to-Video GenerationVideo Generation	—Unverified	0
A Recipe for Scaling up Text-to-Video Generation with Text-free Videos	Dec 25, 2023	Image GenerationText to Image Generation	—Unverified	0
CPA: Camera-pose-awareness Diffusion Transformer for Video Generation	Dec 2, 2024	Text-to-Video GenerationVideo Generation	—Unverified	0
Free^2Guide: Gradient-Free Path Integral Control for Enhancing Text-to-Video Generation with Large Vision-Language Models	Nov 26, 2024	Reinforcement Learning (RL)Text-to-Video Generation	—Unverified	0
BroadWay: Boost Your Text-to-Video Generation Model in a Training-free Way	Oct 8, 2024	DecoderText-to-Video Generation	—Unverified	0
Follow-Your-MultiPose: Tuning-Free Multi-Character Text-to-Video Generation via Pose Guidance	Dec 21, 2024	Text-to-Video GenerationVideo Generation	—Unverified	0
MagicVideo: Efficient Video Generation With Latent Diffusion Models	Nov 20, 2022	GPUText-to-Video Generation	—Unverified	0
FlexLip: A Controllable Text-to-Lip System	Jun 7, 2022	Audio Generationtext-to-speech	—Unverified	0
M4V: Multi-Modal Mamba for Text-to-Video Generation	Jun 12, 2025	MambaText-to-Video Generation	—Unverified	0
FlashVideo: A Framework for Swift Inference in Text-to-Video Generation	Dec 30, 2023	Text-to-Video GenerationVideo Generation	—Unverified	0
BlobGEN-Vid: Compositional Text-to-Video Generation with Blob Video Representations	Jan 13, 2025	ObjectText-to-Video Generation	—Unverified	0
Animate Your Motion: Turning Still Images into Dynamic Videos	Mar 15, 2024	SpecificityText-to-Video Generation	—Unverified	0
LoViC: Efficient Long Video Generation with Context Compression	Jul 17, 2025	Text-to-Video GenerationVideo Generation	—Unverified	0

Show:10 25 50

← PrevPage 4 of 9Next →

All datasets MSR-VTT UCF-101 EvalCrafter Text-to-Video (ECTV) Dataset Something-Something V2 Kinetics WebVid

Benchmark Results

#	Model	Metric	Claimed	Verified	Status
1	MagicVideo	FVD	998	—	Unverified
2	VideoComposer	FVD	580	—	Unverified
3	ModelScopeT2V	FVD	550	—	Unverified
4	Show-1	FVD	538	—	Unverified
5	TF-T2V	FVD	441	—	Unverified
6	HiGen	FVD	406	—	Unverified
7	PixelDance	FVD	381	—	Unverified
8	VideoPoet	FVD	213	—	Unverified
9	Video-LaVIT	FVD	188.36	—	Unverified
10	Snap Video (288×288)	FVD	110.4	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	MagicVideo (Zero-shot, 256x256)	FVD16	699	—	Unverified
2	Video LDM (Zero-shot, 320x512)	FVD16	550.61	—	Unverified
3	LAVIE (Zero-shot, 320x512)	FVD16	526.3	—	Unverified
4	PYoCo (Zero-shot, 64x64)	FVD16	355.19	—	Unverified
5	VideoPoet	FVD16	355	—	Unverified
6	Lumiere (Zero-shot, 1024x1024)	FVD16	332.49	—	Unverified
7	Snap Video (Zero-shot, 288×288)	FVD16	260.1	—	Unverified
8	W.A.L.T 3B	FVD16	258.1	—	Unverified
9	PixelDance (Zero-shot, 256x256)	FVD16	242.82	—	Unverified
10	Snap Video (Zero-shot, 512x288)	FVD16	200.2	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	VideoCrafter2	Visual Quality	54.82	—	Unverified
2	Show-1	Visual Quality	53.74	—	Unverified
3	VideoCrafter1	Visual Quality	53.08	—	Unverified
4	Lavie	Visual Quality	52.83	—	Unverified
5	ModelScope	Visual Quality	52.47	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	MAGVIT	FVD	79.1	—	Unverified
2	MAGVIT	FVD	28.5	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	NUWA (128×128)	Accuracy	77.9	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	VideoFactory	FVD	292.35	—	Unverified