Text-to-Video Generation

Ma grand-mère m’a raconté que quand elle était étudiante, elle avait un petit-ami. À l’âge de 18 ans, il a dû partir pour le service militaire, elle ne l’a pas attendu et elle a épousé quelqu’un d’autre. Quand ma grand-mère avait 58-59 ans, un homme (son premier amour) lui a envoyé une demande d’amis sur un réseau social, ils ont commencé à parler... En moins de six mois, ils ont décidé de se voir. Le trajet en train a duré deux jours et ils se sont finalement rencontrés. Cela fait maintenant deux ans qu’ils habitent ensemble et qu’ils nous rendent visite de temps en temps. Je réalise maintenant que leur amour l’un envers l’autre n’a jamais cessé.

Papers

Recently Added Most Hyped Most Active Needs Verification Most Verified

Showing 51–100 of 201 papers

Title	Date	Tasks	Status	Hype
LOVE: Benchmarking and Evaluating Text-to-Video Generation and Video-to-Text Interpretation	May 17, 2025	BenchmarkingQuestion Answering	CodeCode Available	1
VPO: Aligning Text-to-Video Generation Models with Prompt Optimization	Mar 26, 2025	In-Context LearningSafety Alignment	CodeCode Available	1
VidCapBench: A Comprehensive Benchmark of Video Captioning for Controllable Text-to-Video Generation	Feb 18, 2025	Text-to-Video GenerationVideo Captioning	CodeCode Available	1
AIGV-Assessor: Benchmarking and Evaluating the Perceptual Quality of Text-to-Video Generation with LMM	Nov 26, 2024	BenchmarkingText-to-Video Generation	CodeCode Available	1
OnlyFlow: Optical Flow based Motion Conditioning for Video Diffusion Models	Nov 15, 2024	Optical Flow EstimationText-to-Video Generation	CodeCode Available	1
Enhancing Motion in Text-to-Video Generation with Decomposed Encoding and Conditioning	Oct 31, 2024	Motion SynthesisText-to-Video Generation	CodeCode Available	1
IV-Mixed Sampler: Leveraging Image Diffusion Models for Enhanced Video Synthesis	Oct 5, 2024	Text-to-Video Generation	CodeCode Available	1
MMTrail: A Multimodal Trailer Video Dataset with Language and Music Descriptions	Jul 30, 2024	Audio GenerationImage to Video Generation	CodeCode Available	1
SafeSora: Towards Safety Alignment of Text2Video Generation via a Human Preference Dataset	Jun 20, 2024	Safety AlignmentText-to-Video Generation	CodeCode Available	1
VANE-Bench: Video Anomaly Evaluation Benchmark for Conversational LMMs	Jun 14, 2024	Anomaly DetectionBenchmarking	CodeCode Available	1
TALC: Time-Aligned Captions for Multi-Scene Text-to-Video Generation	May 7, 2024	Text-to-Video GenerationVideo Generation	CodeCode Available	1
VSTAR: Generative Temporal Nursing for Longer Dynamic Video Synthesis	Mar 20, 2024	Generative Temporal NursingText-to-Video Generation	CodeCode Available	1
PEEKABOO: Interactive Video Generation via Masked-Diffusion	Dec 12, 2023	Text-to-Video GenerationVideo Generation	CodeCode Available	1
MotionCrafter: One-Shot Motion Customization of Diffusion Models	Dec 8, 2023	DisentanglementMotion Disentanglement	CodeCode Available	1
FusionFrames: Efficient Architectural Aspects for Text-to-Video Generation Pipeline	Nov 22, 2023	SSIMText-to-Video Generation	CodeCode Available	1
FETV: A Benchmark for Fine-Grained Evaluation of Open-Domain Text-to-Video Generation	Nov 3, 2023	Text-to-Video GenerationVideo Generation	CodeCode Available	1
EvalCrafter: Benchmarking and Evaluating Large Video Generation Models	Oct 17, 2023	BenchmarkingLanguage Modelling	CodeCode Available	1
ConditionVideo: Training-Free Condition-Guided Text-to-Video Generation	Oct 11, 2023	Image GenerationText to Image Generation	CodeCode Available	1
Diverse and Aligned Audio-to-Video Generation via Text-to-Video Model Adaptation	Sep 28, 2023	Text-to-Video GenerationVideo Generation	CodeCode Available	1
LAVIE: High-Quality Video Generation with Cascaded Latent Diffusion Models	Sep 26, 2023	Super-ResolutionText-to-Video Generation	CodeCode Available	1
Free-Bloom: Zero-Shot Text-to-Video Generator with LLM Director and LDM Animator	Sep 25, 2023	Text-to-Video GenerationVideo Generation	CodeCode Available	1
Reuse and Diffuse: Iterative Denoising for Text-to-Video Generation	Sep 7, 2023	Action RecognitionDecoder	CodeCode Available	1
DirecT2V: Large Language Models are Frame-Level Directors for Zero-Shot Text-to-Video Generation	May 23, 2023	Text-to-Video GenerationVideo Generation	CodeCode Available	1
Swap Attention in Spatiotemporal Diffusions for Text-to-Video Generation	May 18, 2023	Image GenerationText to Image Generation	CodeCode Available	1
Sketching the Future (STF): Applying Conditional Control Techniques to Text-to-Video Models	May 10, 2023	Text-to-Video GenerationVideo Generation	CodeCode Available	1
Align your Latents: High-Resolution Video Synthesis with Latent Diffusion Models	Apr 18, 2023	Image GenerationSuper-Resolution	CodeCode Available	1
Generative Disco: Text-to-Video Generation for Music Visualization	Apr 17, 2023	Text-to-Video GenerationVideo Generation	CodeCode Available	1
Tell Me What Happened: Unifying Text-guided Video Completion via Multimodal Masked Video Generation	Nov 23, 2022	Text-to-Video GenerationVideo Generation	CodeCode Available	1
Make-A-Video: Text-to-Video Generation without Text-Video Data	Sep 29, 2022	DecoderImage Generation	CodeCode Available	1
MUGEN: A Playground for Video-Audio-Text Multimodal Understanding and GENeration	Apr 17, 2022	NavigateRetrieval	CodeCode Available	1
NÜWA: Visual Synthesis Pre-training for Neural visUal World creAtion	Nov 24, 2021	DecoderImage Generation	CodeCode Available	1
GODIVA: Generating Open-DomaIn Videos from nAtural Descriptions	Apr 30, 2021	Text-to-Video GenerationVideo Generation	CodeCode Available	1
LoViC: Efficient Long Video Generation with Context Compression	Jul 17, 2025	Text-to-Video GenerationVideo Generation	—Unverified	0
M4V: Multi-Modal Mamba for Text-to-Video Generation	Jun 12, 2025	MambaText-to-Video Generation	—Unverified	0
Astraea: A GPU-Oriented Token-wise Acceleration Framework for Video Diffusion Transformers	Jun 5, 2025	GPUText-to-Video Generation	—Unverified	0
InfLVG: Reinforce Inference-Time Consistent Long Video Generation with GRPO	May 23, 2025	Text-to-Video GenerationVideo Generation	CodeCode Available	0
Safe-Sora: Safe Text-to-Video Generation via Graphical Watermarking	May 19, 2025	Image GenerationMamba	—Unverified	0
T2VTextBench: A Human Evaluation Benchmark for Textual Control in Video Generation Models	May 8, 2025	Instruction FollowingText-to-Video Generation	—Unverified	0
DualReal: Adaptive Joint Training for Lossless Identity-Motion Fusion in Video Customization	May 4, 2025	DenoisingText-to-Video Generation	—Unverified	0
T2VPhysBench: A First-Principles Benchmark for Physical Consistency in Text-to-Video Generation	May 1, 2025	counterfactualInstruction Following	—Unverified	0
We'll Fix it in Post: Improving Text-to-Video Generation with Neuro-Symbolic Feedback	Apr 24, 2025	Text-to-Video GenerationVideo Generation	—Unverified	0
DyST-XL: Dynamic Layout Planning and Content Control for Compositional Text-to-Video Generation	Apr 21, 2025	AttributeDenoising	—Unverified	0
Tiger200K: Manually Curated High Visual Quality Video Dataset from UGC Platform	Apr 21, 2025	Boundary DetectionOptical Character Recognition (OCR)	—Unverified	0
The Devil is in the Prompts: Retrieval-Augmented Prompt Optimization for Text-to-Video Generation	Apr 16, 2025	SentenceText-to-Video Generation	—Unverified	0
Modular-Cam: Modular Dynamic Camera-view Video Generation with LLM	Apr 16, 2025	Large Language ModelText-to-Video Generation	—Unverified	0
H3AE: High Compression, High Speed, and High Quality AutoEncoder for Video Diffusion Models	Apr 14, 2025	DenoisingText-to-Video Generation	—Unverified	0
Training-free Guidance in Text-to-Video Generation via Multimodal Planning and Structured Noise Initialization	Apr 11, 2025	DenoisingObject	—Unverified	0
VideoMage: Multi-Subject and Motion Customization of Text-to-Video Diffusion Models	Mar 27, 2025	Text-to-Video GenerationVideo Generation	—Unverified	0
RecTable: Fast Modeling Tabular Data with Rectified Flow	Mar 26, 2025	Image GenerationText to Image Generation	CodeCode Available	0
Protecting Your Video Content: Disrupting Automated Video-based LLM Annotations	Mar 26, 2025	DescriptiveText-to-Video Generation	CodeCode Available	0

Show:10 25 50

← PrevPage 2 of 5Next →

All datasets MSR-VTT UCF-101 EvalCrafter Text-to-Video (ECTV) Dataset Something-Something V2 Kinetics WebVid

Benchmark Results

#	Model	Metric	Claimed	Verified	Status
1	MagicVideo	FVD	998	—	Unverified
2	VideoComposer	FVD	580	—	Unverified
3	ModelScopeT2V	FVD	550	—	Unverified
4	Show-1	FVD	538	—	Unverified
5	TF-T2V	FVD	441	—	Unverified
6	HiGen	FVD	406	—	Unverified
7	PixelDance	FVD	381	—	Unverified
8	VideoPoet	FVD	213	—	Unverified
9	Video-LaVIT	FVD	188.36	—	Unverified
10	Snap Video (288×288)	FVD	110.4	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	MagicVideo (Zero-shot, 256x256)	FVD16	699	—	Unverified
2	Video LDM (Zero-shot, 320x512)	FVD16	550.61	—	Unverified
3	LAVIE (Zero-shot, 320x512)	FVD16	526.3	—	Unverified
4	PYoCo (Zero-shot, 64x64)	FVD16	355.19	—	Unverified
5	VideoPoet	FVD16	355	—	Unverified
6	Lumiere (Zero-shot, 1024x1024)	FVD16	332.49	—	Unverified
7	Snap Video (Zero-shot, 288×288)	FVD16	260.1	—	Unverified
8	W.A.L.T 3B	FVD16	258.1	—	Unverified
9	PixelDance (Zero-shot, 256x256)	FVD16	242.82	—	Unverified
10	Snap Video (Zero-shot, 512x288)	FVD16	200.2	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	VideoCrafter2	Visual Quality	54.82	—	Unverified
2	Show-1	Visual Quality	53.74	—	Unverified
3	VideoCrafter1	Visual Quality	53.08	—	Unverified
4	Lavie	Visual Quality	52.83	—	Unverified
5	ModelScope	Visual Quality	52.47	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	MAGVIT	FVD	79.1	—	Unverified
2	MAGVIT	FVD	28.5	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	NUWA (128×128)	Accuracy	77.9	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	VideoFactory	FVD	292.35	—	Unverified