Text-to-Video Generation

Ma grand-mère m’a raconté que quand elle était étudiante, elle avait un petit-ami. À l’âge de 18 ans, il a dû partir pour le service militaire, elle ne l’a pas attendu et elle a épousé quelqu’un d’autre. Quand ma grand-mère avait 58-59 ans, un homme (son premier amour) lui a envoyé une demande d’amis sur un réseau social, ils ont commencé à parler... En moins de six mois, ils ont décidé de se voir. Le trajet en train a duré deux jours et ils se sont finalement rencontrés. Cela fait maintenant deux ans qu’ils habitent ensemble et qu’ils nous rendent visite de temps en temps. Je réalise maintenant que leur amour l’un envers l’autre n’a jamais cessé.

Papers

Recently Added Most Hyped Most Active Needs Verification Most Verified

Showing 151–200 of 201 papers

Title	Date	Tasks	Status	Hype
GPT4Video: A Unified Multimodal Large Language Model for lnstruction-Followed Understanding and Safety-Aware Generation	Nov 25, 2023	Instruction FollowingLanguage Modeling	—Unverified	0
FusionFrames: Efficient Architectural Aspects for Text-to-Video Generation Pipeline	Nov 22, 2023	SSIMText-to-Video Generation	CodeCode Available	1
GPT4Motion: Scripting Physical Motions in Text-to-Video Generation via Blender-Oriented GPT Planning	Nov 21, 2023	Image GenerationText-to-Video Generation	—Unverified	0
Make Pixels Dance: High-Dynamic Video Generation	Nov 18, 2023	Text-to-Video GenerationVideo Generation	—Unverified	0
Emu Video: Factorizing Text-to-Video Generation by Explicit Image Conditioning	Nov 17, 2023	Text-to-Video GenerationVideo Generation	—Unverified	0
FETV: A Benchmark for Fine-Grained Evaluation of Open-Domain Text-to-Video Generation	Nov 3, 2023	Text-to-Video GenerationVideo Generation	CodeCode Available	1
REGIS: Refining Generated Videos via Iterative Stylistic Redesigning	Nov 3, 2023	Text-to-Video GenerationVideo Generation	CodeCode Available	0
VideoDreamer: Customized Multi-Subject Text-to-Video Generation with Disen-Mix Finetuning	Nov 2, 2023	AttributeText-to-Video Generation	—Unverified	0
POS: A Prompts Optimization Suite for Augmenting Text-to-Video Generation	Nov 2, 2023	DenoisingPOS	—Unverified	0
VideoCrafter1: Open Diffusion Models for High-Quality Video Generation	Oct 30, 2023	Text-to-Video GenerationVideo Generation	CodeCode Available	5
EvalCrafter: Benchmarking and Evaluating Large Video Generation Models	Oct 17, 2023	BenchmarkingLanguage Modelling	CodeCode Available	1
ConditionVideo: Training-Free Condition-Guided Text-to-Video Generation	Oct 11, 2023	Image GenerationText to Image Generation	CodeCode Available	1
Diverse and Aligned Audio-to-Video Generation via Text-to-Video Model Adaptation	Sep 28, 2023	Text-to-Video GenerationVideo Generation	CodeCode Available	1
Show-1: Marrying Pixel and Latent Diffusion Models for Text-to-Video Generation	Sep 27, 2023	GPUText-to-Video Generation	CodeCode Available	3
LAVIE: High-Quality Video Generation with Cascaded Latent Diffusion Models	Sep 26, 2023	Super-ResolutionText-to-Video Generation	CodeCode Available	1
Free-Bloom: Zero-Shot Text-to-Video Generator with LLM Director and LDM Animator	Sep 25, 2023	Text-to-Video GenerationVideo Generation	CodeCode Available	1
Reuse and Diffuse: Iterative Denoising for Text-to-Video Generation	Sep 7, 2023	Action RecognitionDecoder	CodeCode Available	1
VideoGen: A Reference-Guided Latent Diffusion Approach for High Definition Text-to-Video Generation	Sep 1, 2023	DecoderImage Generation	—Unverified	0
Dual-Stream Diffusion Net for Text-to-Video Generation	Aug 16, 2023	Text-to-Video GenerationVideo Generation	—Unverified	0
ModelScope Text-to-Video Technical Report	Aug 12, 2023	DenoisingImage Generation	CodeCode Available	3
InternVid: A Large-scale Video-Text Dataset for Multimodal Understanding and Generation	Jul 13, 2023	Action RecognitionContrastive Learning	—Unverified	0
VideoComposer: Compositional Video Synthesis with Motion Controllability	Jun 3, 2023	Image GenerationText-to-Video Generation	CodeCode Available	2
Control-A-Video: Controllable Text-to-Video Diffusion Models with Motion Prior and Reward Feedback Learning	May 23, 2023	Image GenerationOptical Flow Estimation	CodeCode Available	2
DirecT2V: Large Language Models are Frame-Level Directors for Zero-Shot Text-to-Video Generation	May 23, 2023	Text-to-Video GenerationVideo Generation	CodeCode Available	1
ControlVideo: Training-free Controllable Text-to-Video Generation	May 22, 2023	Image GenerationText-to-Video Generation	CodeCode Available	2
Swap Attention in Spatiotemporal Diffusions for Text-to-Video Generation	May 18, 2023	Image GenerationText to Image Generation	CodeCode Available	1
Preserve Your Own Correlation: A Noise Prior for Video Diffusion Models	May 17, 2023	Image GenerationText-to-Video Generation	—Unverified	0
Make-An-Animation: Large-Scale Text-conditional 3D Human Motion Generation	May 16, 2023	Motion GenerationMotion Synthesis	—Unverified	0
Sketching the Future (STF): Applying Conditional Control Techniques to Text-to-Video Models	May 10, 2023	Text-to-Video GenerationVideo Generation	CodeCode Available	1
Align your Latents: High-Resolution Video Synthesis with Latent Diffusion Models	Apr 18, 2023	Image GenerationSuper-Resolution	CodeCode Available	1
Latent-Shift: Latent Diffusion with Temporal Shift for Efficient Text-to-Video Generation	Apr 17, 2023	Image GenerationSuper-Resolution	—Unverified	0
Generative Disco: Text-to-Video Generation for Music Visualization	Apr 17, 2023	Text-to-Video GenerationVideo Generation	CodeCode Available	1
Follow Your Pose: Pose-Guided Text-to-Video Generation using Pose-Free Videos	Apr 3, 2023	Image GenerationText to Image Generation	CodeCode Available	3
CelebV-Text: A Large-Scale Facial Text-Video Dataset	Mar 26, 2023	Text GenerationText-to-Video Generation	CodeCode Available	2
Text2Video-Zero: Text-to-Image Diffusion Models are Zero-Shot Video Generators	Mar 23, 2023	Image GenerationText-to-Video Generation	CodeCode Available	4
VideoFusion: Decomposed Diffusion Models for High-Quality Video Generation	Mar 15, 2023	Code GenerationDenoising	CodeCode Available	4
Structure and Content-Guided Video Synthesis with Diffusion Models	Feb 6, 2023	DisentanglementText-to-Video Generation	—Unverified	0
Make-An-Audio: Text-To-Audio Generation with Prompt-Enhanced Diffusion Models	Jan 30, 2023	Audio GenerationText-to-Video Generation	CodeCode Available	2
Tune-A-Video: One-Shot Tuning of Image Diffusion Models for Text-to-Video Generation	Dec 22, 2022	Style TransferText-to-Video Generation	CodeCode Available	4
MAGVIT: Masked Generative Video Transformer	Dec 10, 2022	Multi-Task LearningText-to-Video Generation	CodeCode Available	2
Latent Video Diffusion Models for High-Fidelity Long Video Generation	Nov 23, 2022	DenoisingImage Generation	CodeCode Available	2
Tell Me What Happened: Unifying Text-guided Video Completion via Multimodal Masked Video Generation	Nov 23, 2022	Text-to-Video GenerationVideo Generation	CodeCode Available	1
MagicVideo: Efficient Video Generation With Latent Diffusion Models	Nov 20, 2022	GPUText-to-Video Generation	—Unverified	0
Make-A-Video: Text-to-Video Generation without Text-Video Data	Sep 29, 2022	DecoderImage Generation	CodeCode Available	1
FlexLip: A Controllable Text-to-Lip System	Jun 7, 2022	Audio Generationtext-to-speech	—Unverified	0
CogVideo: Large-scale Pretraining for Text-to-Video Generation via Transformers	May 29, 2022	Text-to-Video GenerationVideo Generation	CodeCode Available	6
MUGEN: A Playground for Video-Audio-Text Multimodal Understanding and GENeration	Apr 17, 2022	NavigateRetrieval	CodeCode Available	1
NÜWA: Visual Synthesis Pre-training for Neural visUal World creAtion	Nov 24, 2021	DecoderImage Generation	CodeCode Available	1
Video Generation from Text Employing Latent Path Construction for Temporal Modeling	Jul 29, 2021	Text-to-Video GenerationVideo Generation	—Unverified	0
GODIVA: Generating Open-DomaIn Videos from nAtural Descriptions	Apr 30, 2021	Text-to-Video GenerationVideo Generation	CodeCode Available	1

Show:10 25 50

← PrevPage 4 of 5Next →

All datasets MSR-VTT UCF-101 EvalCrafter Text-to-Video (ECTV) Dataset Something-Something V2 Kinetics WebVid

Benchmark Results

#	Model	Metric	Claimed	Verified	Status
1	MagicVideo	FVD	998	—	Unverified
2	VideoComposer	FVD	580	—	Unverified
3	ModelScopeT2V	FVD	550	—	Unverified
4	Show-1	FVD	538	—	Unverified
5	TF-T2V	FVD	441	—	Unverified
6	HiGen	FVD	406	—	Unverified
7	PixelDance	FVD	381	—	Unverified
8	VideoPoet	FVD	213	—	Unverified
9	Video-LaVIT	FVD	188.36	—	Unverified
10	Snap Video (288×288)	FVD	110.4	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	MagicVideo (Zero-shot, 256x256)	FVD16	699	—	Unverified
2	Video LDM (Zero-shot, 320x512)	FVD16	550.61	—	Unverified
3	LAVIE (Zero-shot, 320x512)	FVD16	526.3	—	Unverified
4	PYoCo (Zero-shot, 64x64)	FVD16	355.19	—	Unverified
5	VideoPoet	FVD16	355	—	Unverified
6	Lumiere (Zero-shot, 1024x1024)	FVD16	332.49	—	Unverified
7	Snap Video (Zero-shot, 288×288)	FVD16	260.1	—	Unverified
8	W.A.L.T 3B	FVD16	258.1	—	Unverified
9	PixelDance (Zero-shot, 256x256)	FVD16	242.82	—	Unverified
10	Snap Video (Zero-shot, 512x288)	FVD16	200.2	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	VideoCrafter2	Visual Quality	54.82	—	Unverified
2	Show-1	Visual Quality	53.74	—	Unverified
3	VideoCrafter1	Visual Quality	53.08	—	Unverified
4	Lavie	Visual Quality	52.83	—	Unverified
5	ModelScope	Visual Quality	52.47	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	MAGVIT	FVD	79.1	—	Unverified
2	MAGVIT	FVD	28.5	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	NUWA (128×128)	Accuracy	77.9	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	VideoFactory	FVD	292.35	—	Unverified