Text-to-Video Generation

Ma grand-mère m’a raconté que quand elle était étudiante, elle avait un petit-ami. À l’âge de 18 ans, il a dû partir pour le service militaire, elle ne l’a pas attendu et elle a épousé quelqu’un d’autre. Quand ma grand-mère avait 58-59 ans, un homme (son premier amour) lui a envoyé une demande d’amis sur un réseau social, ils ont commencé à parler... En moins de six mois, ils ont décidé de se voir. Le trajet en train a duré deux jours et ils se sont finalement rencontrés. Cela fait maintenant deux ans qu’ils habitent ensemble et qu’ils nous rendent visite de temps en temps. Je réalise maintenant que leur amour l’un envers l’autre n’a jamais cessé.

Papers

Recently Added Most Hyped Most Active Needs Verification Most Verified

Showing 151–200 of 201 papers

Title	Date	Tasks	Status
Advancing Video Quality Assessment for AIGC	Sep 23, 2024	Image GenerationText Generation	—Unverified
ByTheWay: Boost Your Text-to-Video Generation Model to Higher Quality in a Training-free Way	Jan 1, 2025	Text-to-Video GenerationVideo Generation	—Unverified
The Art of Storytelling: Multi-Agent Generative AI for Dynamic Multimodal Narratives	Sep 17, 2024	text-to-speechText to Speech	—Unverified
The Devil is in the Prompts: Retrieval-Augmented Prompt Optimization for Text-to-Video Generation	Apr 16, 2025	SentenceText-to-Video Generation	—Unverified
The Lost Melody: Empirical Observations on Text-to-Video Generation From A Storytelling Perspective	May 13, 2024	Text-to-Video GenerationVideo Generation	—Unverified
Tiger200K: Manually Curated High Visual Quality Video Dataset from UGC Platform	Apr 21, 2025	Boundary DetectionOptical Character Recognition (OCR)	—Unverified
Towards A Better Metric for Text-to-Video Generation	Jan 15, 2024	Mixture-of-ExpertsText-to-Video Generation	—Unverified
Training-free Guidance in Text-to-Video Generation via Multimodal Planning and Structured Noise Initialization	Apr 11, 2025	DenoisingObject	—Unverified
BroadWay: Boost Your Text-to-Video Generation Model in a Training-free Way	Oct 8, 2024	DecoderText-to-Video Generation	—Unverified
TRIP: Temporal Residual Learning with Image Noise Prior for Image-to-Video Diffusion Models	Mar 25, 2024	Image to Video GenerationRelational Reasoning	—Unverified
T-SVG: Text-Driven Stereoscopic Video Generation	Dec 12, 2024	Depth EstimationText-to-Video Generation	—Unverified
BlobGEN-Vid: Compositional Text-to-Video Generation with Blob Video Representations	Jan 13, 2025	ObjectText-to-Video Generation	—Unverified
Tutorial on Diffusion Models for Imaging and Vision	Mar 26, 2024	Image GenerationText to Image Generation	—Unverified
Unlearning Concepts from Text-to-Video Diffusion Models	Jul 19, 2024	Text-to-Video GenerationVideo Generation	—Unverified
VIMI: Grounding Video Generation through Multi-modal Instruction	Jul 8, 2024	Text-to-Video GenerationVideo Generation	—Unverified
WISA: World Simulator Assistant for Physics-Aware Text-to-Video Generation	Mar 11, 2025	Text-to-Video GenerationVideo Generation	—Unverified
A Survey of Emerging Approaches and Advances in Video Generation	Nov 9, 2024	Image to Video GenerationLanguage Modeling	—Unverified
Zero-Shot Video Editing through Adaptive Sliding Score Distillation	Jun 7, 2024	DenoisingText-to-Video Generation	—Unverified
Gender Bias in Text-to-Video Generation Models: A case study of Sora	Dec 30, 2024	Text-to-Video GenerationVideo Generation	—Unverified
Free^2Guide: Gradient-Free Path Integral Control for Enhancing Text-to-Video Generation with Large Vision-Language Models	Nov 26, 2024	Reinforcement Learning (RL)Text-to-Video Generation	—Unverified
Astraea: A GPU-Oriented Token-wise Acceleration Framework for Video Diffusion Transformers	Jun 5, 2025	GPUText-to-Video Generation	—Unverified
GenMAC: Compositional Text-to-Video Generation with Multi-Agent Collaboration	Dec 5, 2024	AttributeHallucination	—Unverified
GenTron: Diffusion Transformers for Image and Video Generation	Dec 7, 2023	Text-to-Video GenerationVideo Generation	—Unverified
GiVE: Guiding Visual Encoder to Perceive Overlooked Information	Oct 26, 2024	ObjectQuestion Answering	—Unverified
ARTV: Auto-Regressive Text-to-Video Generation with Diffusion Models	Nov 30, 2023	Text-to-Video GenerationVideo Generation	—Unverified
GPT4Motion: Scripting Physical Motions in Text-to-Video Generation via Blender-Oriented GPT Planning	Nov 21, 2023	Image GenerationText-to-Video Generation	—Unverified
GPT4Video: A Unified Multimodal Large Language Model for lnstruction-Followed Understanding and Safety-Aware Generation	Nov 25, 2023	Instruction FollowingLanguage Modeling	—Unverified
Grid Diffusion Models for Text-to-Video Generation	Mar 30, 2024	GPUImage Generation	—Unverified
GVDIFF: Grounded Text-to-Video Generation with Diffusion Models	Jul 2, 2024	Text-to-Video GenerationVideo Generation	—Unverified
H3AE: High Compression, High Speed, and High Quality AutoEncoder for Video Diffusion Models	Apr 14, 2025	DenoisingText-to-Video Generation	—Unverified
HAIC: Improving Human Action Understanding and Generation with Better Captions for Multi-modal Large Language Models	Feb 28, 2025	Action UnderstandingText-to-Video Generation	—Unverified
Harness Local Rewards for Global Benefits: Effective Text-to-Video Generation Alignment with Patch-level Reward Models	Feb 4, 2025	Text-to-Video GenerationVideo Generation	—Unverified
Hierarchical Spatio-temporal Decoupling for Text-to-Video Generation	Dec 7, 2023	Spatial ReasoningText-to-Video Generation	—Unverified
HiTVideo: Hierarchical Tokenizers for Enhancing Text-to-Video Generation with Autoregressive Large Language Models	Mar 14, 2025	Text-to-Video GenerationVideo Generation	—Unverified
I4VGen: Image as Free Stepping Stone for Text-to-Video Generation	Jun 4, 2024	DiversityImage Generation	—Unverified
Follow-Your-MultiPose: Tuning-Free Multi-Character Text-to-Video Generation via Pose Guidance	Dec 21, 2024	Text-to-Video GenerationVideo Generation	—Unverified
Improving Dynamic Object Interactions in Text-to-Video Generation with AI Feedback	Dec 3, 2024	ObjectOffline RL	—Unverified
IM-Zero: Instance-level Motion Controllable Video Generation in a Zero-shot Manner	Jan 1, 2025	Motion GenerationText-to-Video Generation	—Unverified
InstanceCap: Improving Text-to-Video Generation via Instance-aware Structured Caption	Dec 12, 2024	Text-to-Video GenerationVideo Generation	—Unverified
IPO: Iterative Preference Optimization for Text-to-Video Generation	Feb 4, 2025	Large Language ModelText-to-Video Generation	—Unverified
InternVid: A Large-scale Video-Text Dataset for Multimodal Understanding and Generation	Jul 13, 2023	Action RecognitionContrastive Learning	—Unverified
A Review of Multi-Modal Large Language and Vision Models	Mar 28, 2024	Image CaptioningPrompt Engineering	—Unverified
Kubrick: Multimodal Agent Collaborations for Synthetic Video Generation	Aug 19, 2024	Instruction FollowingLarge Language Model	—Unverified
A Recipe for Scaling up Text-to-Video Generation with Text-free Videos	Dec 25, 2023	Image GenerationText to Image Generation	—Unverified
Latent-Shift: Latent Diffusion with Temporal Shift for Efficient Text-to-Video Generation	Apr 17, 2023	Image GenerationSuper-Resolution	—Unverified
FlexLip: A Controllable Text-to-Lip System	Jun 7, 2022	Audio Generationtext-to-speech	—Unverified
FlashVideo: A Framework for Swift Inference in Text-to-Video Generation	Dec 30, 2023	Text-to-Video GenerationVideo Generation	—Unverified
VideoDPO: Omni-Preference Alignment for Video Diffusion Generation	Dec 18, 2024	Image GenerationText-to-Video Generation	—Unverified
LinGen: Towards High-Resolution Minute-Length Text-to-Video Generation with Linear Computational Complexity	Dec 13, 2024	GPUMamba	—Unverified
LivePhoto: Real Image Animation with Text-guided Motion Control	Dec 5, 2023	Image AnimationText-to-Video Generation	—Unverified

Show:10 25 50

← PrevPage 4 of 5Next →

All datasets MSR-VTT UCF-101 EvalCrafter Text-to-Video (ECTV) Dataset Something-Something V2 Kinetics WebVid

Benchmark Results

#	Model	Metric	Claimed	Verified	Status
1	MagicVideo	FVD	998	—	Unverified
2	VideoComposer	FVD	580	—	Unverified
3	ModelScopeT2V	FVD	550	—	Unverified
4	Show-1	FVD	538	—	Unverified
5	TF-T2V	FVD	441	—	Unverified
6	HiGen	FVD	406	—	Unverified
7	PixelDance	FVD	381	—	Unverified
8	VideoPoet	FVD	213	—	Unverified
9	Video-LaVIT	FVD	188.36	—	Unverified
10	Snap Video (288×288)	FVD	110.4	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	MagicVideo (Zero-shot, 256x256)	FVD16	699	—	Unverified
2	Video LDM (Zero-shot, 320x512)	FVD16	550.61	—	Unverified
3	LAVIE (Zero-shot, 320x512)	FVD16	526.3	—	Unverified
4	PYoCo (Zero-shot, 64x64)	FVD16	355.19	—	Unverified
5	VideoPoet	FVD16	355	—	Unverified
6	Lumiere (Zero-shot, 1024x1024)	FVD16	332.49	—	Unverified
7	Snap Video (Zero-shot, 288×288)	FVD16	260.1	—	Unverified
8	W.A.L.T 3B	FVD16	258.1	—	Unverified
9	PixelDance (Zero-shot, 256x256)	FVD16	242.82	—	Unverified
10	Snap Video (Zero-shot, 512x288)	FVD16	200.2	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	VideoCrafter2	Visual Quality	54.82	—	Unverified
2	Show-1	Visual Quality	53.74	—	Unverified
3	VideoCrafter1	Visual Quality	53.08	—	Unverified
4	Lavie	Visual Quality	52.83	—	Unverified
5	ModelScope	Visual Quality	52.47	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	MAGVIT	FVD	79.1	—	Unverified
2	MAGVIT	FVD	28.5	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	NUWA (128×128)	Accuracy	77.9	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	VideoFactory	FVD	292.35	—	Unverified