Text-to-Video Generation

Ma grand-mère m’a raconté que quand elle était étudiante, elle avait un petit-ami. À l’âge de 18 ans, il a dû partir pour le service militaire, elle ne l’a pas attendu et elle a épousé quelqu’un d’autre. Quand ma grand-mère avait 58-59 ans, un homme (son premier amour) lui a envoyé une demande d’amis sur un réseau social, ils ont commencé à parler... En moins de six mois, ils ont décidé de se voir. Le trajet en train a duré deux jours et ils se sont finalement rencontrés. Cela fait maintenant deux ans qu’ils habitent ensemble et qu’ils nous rendent visite de temps en temps. Je réalise maintenant que leur amour l’un envers l’autre n’a jamais cessé.

Papers

Recently Added Most Hyped Most Active Needs Verification Most Verified

Showing 1–50 of 201 papers

Title	Date	Tasks	Status	Hype
LoViC: Efficient Long Video Generation with Context Compression	Jul 17, 2025	Text-to-Video GenerationVideo Generation	—Unverified	0
M4V: Multi-Modal Mamba for Text-to-Video Generation	Jun 12, 2025	MambaText-to-Video Generation	—Unverified	0
Astraea: A GPU-Oriented Token-wise Acceleration Framework for Video Diffusion Transformers	Jun 5, 2025	GPUText-to-Video Generation	—Unverified	0
VCapsBench: A Large-scale Fine-grained Benchmark for Video Caption Quality Evaluation	May 29, 2025	Caption GenerationLanguage Modeling	CodeCode Available	1
InfLVG: Reinforce Inference-Time Consistent Long Video Generation with GRPO	May 23, 2025	Text-to-Video GenerationVideo Generation	CodeCode Available	0
Safe-Sora: Safe Text-to-Video Generation via Graphical Watermarking	May 19, 2025	Image GenerationMamba	—Unverified	0
LOVE: Benchmarking and Evaluating Text-to-Video Generation and Video-to-Text Interpretation	May 17, 2025	BenchmarkingQuestion Answering	CodeCode Available	1
T2VTextBench: A Human Evaluation Benchmark for Textual Control in Video Generation Models	May 8, 2025	Instruction FollowingText-to-Video Generation	—Unverified	0
DualReal: Adaptive Joint Training for Lossless Identity-Motion Fusion in Video Customization	May 4, 2025	DenoisingText-to-Video Generation	—Unverified	0
T2VPhysBench: A First-Principles Benchmark for Physical Consistency in Text-to-Video Generation	May 1, 2025	counterfactualInstruction Following	—Unverified	0
We'll Fix it in Post: Improving Text-to-Video Generation with Neuro-Symbolic Feedback	Apr 24, 2025	Text-to-Video GenerationVideo Generation	—Unverified	0
Tiger200K: Manually Curated High Visual Quality Video Dataset from UGC Platform	Apr 21, 2025	Boundary DetectionOptical Character Recognition (OCR)	—Unverified	0
DyST-XL: Dynamic Layout Planning and Content Control for Compositional Text-to-Video Generation	Apr 21, 2025	AttributeDenoising	—Unverified	0
The Devil is in the Prompts: Retrieval-Augmented Prompt Optimization for Text-to-Video Generation	Apr 16, 2025	SentenceText-to-Video Generation	—Unverified	0
Modular-Cam: Modular Dynamic Camera-view Video Generation with LLM	Apr 16, 2025	Large Language ModelText-to-Video Generation	—Unverified	0
H3AE: High Compression, High Speed, and High Quality AutoEncoder for Video Diffusion Models	Apr 14, 2025	DenoisingText-to-Video Generation	—Unverified	0
Training-free Guidance in Text-to-Video Generation via Multimodal Planning and Structured Noise Initialization	Apr 11, 2025	DenoisingObject	—Unverified	0
On-device Sora: Enabling Training-Free Diffusion-based Text-to-Video Generation for Mobile Devices	Mar 31, 2025	DenoisingModel Optimization	CodeCode Available	2
VideoMage: Multi-Subject and Motion Customization of Text-to-Video Diffusion Models	Mar 27, 2025	Text-to-Video GenerationVideo Generation	—Unverified	0
Protecting Your Video Content: Disrupting Automated Video-based LLM Annotations	Mar 26, 2025	DescriptiveText-to-Video Generation	CodeCode Available	0
VPO: Aligning Text-to-Video Generation Models with Prompt Optimization	Mar 26, 2025	In-Context LearningSafety Alignment	CodeCode Available	1
RecTable: Fast Modeling Tabular Data with Rectified Flow	Mar 26, 2025	Image GenerationText to Image Generation	CodeCode Available	0
Can Text-to-Video Generation help Video-Language Alignment?	Mar 24, 2025	Text-to-Video GenerationVideo Generation	—Unverified	0
Resource-Efficient Motion Control for Video Generation via Dynamic Mask Guidance	Mar 24, 2025	Text-to-Video GenerationVideo Editing	—Unverified	0
Enabling Versatile Controls for Video Diffusion Models	Mar 21, 2025	Text-to-Video GenerationVideo Generation	—Unverified	0
HiTVideo: Hierarchical Tokenizers for Enhancing Text-to-Video Generation with Autoregressive Large Language Models	Mar 14, 2025	Text-to-Video GenerationVideo Generation	—Unverified	0
WISA: World Simulator Assistant for Physics-Aware Text-to-Video Generation	Mar 11, 2025	Text-to-Video GenerationVideo Generation	—Unverified	0
VideoUFO: A Million-Scale User-Focused Dataset for Text-to-Video Generation	Mar 3, 2025	Text-to-Video GenerationVideo Generation	CodeCode Available	0
HAIC: Improving Human Action Understanding and Generation with Better Captions for Multi-modal Large Language Models	Feb 28, 2025	Action UnderstandingText-to-Video Generation	—Unverified	0
RelaCtrl: Relevance-Guided Efficient Control for Diffusion Transformers	Feb 20, 2025	Text-to-Video GenerationVideo Generation	—Unverified	0
VidCapBench: A Comprehensive Benchmark of Video Captioning for Controllable Text-to-Video Generation	Feb 18, 2025	Text-to-Video GenerationVideo Captioning	CodeCode Available	1
MALT Diffusion: Memory-Augmented Latent Transformers for Any-Length Video Generation	Feb 18, 2025	Text-to-Video GenerationVideo Generation	—Unverified	0
CineMaster: A 3D-Aware and Controllable Framework for Cinematic Text-to-Video Generation	Feb 12, 2025	ObjectText-to-Video Generation	—Unverified	0
Magic 1-For-1: Generating One Minute Video Clips within One Minute	Feb 11, 2025	Image GenerationImage to Video Generation	CodeCode Available	0
FlashVideo:Flowing Fidelity to Detail for Efficient High-Resolution Video Generation	Feb 7, 2025	Computational EfficiencyText-to-Video Generation	CodeCode Available	3
On-device Sora: Enabling Training-Free Diffusion-based Text-to-Video Generation for Mobile Devices	Feb 5, 2025	DenoisingModel Optimization	CodeCode Available	2
Harness Local Rewards for Global Benefits: Effective Text-to-Video Generation Alignment with Patch-level Reward Models	Feb 4, 2025	Text-to-Video GenerationVideo Generation	—Unverified	0
IPO: Iterative Preference Optimization for Text-to-Video Generation	Feb 4, 2025	Large Language ModelText-to-Video Generation	—Unverified	0
RichSpace: Enriching Text-to-Video Prompt Space via Text Embedding Interpolation	Jan 17, 2025	Text-to-Video GenerationVideo Generation	—Unverified	0
Vchitect-2.0: Parallel Transformer for Scaling Up Video Diffusion Models	Jan 14, 2025	BenchmarkingText-to-Video Generation	CodeCode Available	4
BlobGEN-Vid: Compositional Text-to-Video Generation with Blob Video Representations	Jan 13, 2025	ObjectText-to-Video Generation	—Unverified	0
ConceptMaster: Multi-Concept Video Customization on Diffusion Transformer Models Without Test-Time Tuning	Jan 8, 2025	Text-to-Video GenerationVideo Generation	—Unverified	0
Magic Mirror: ID-Preserved Video Generation in Video Diffusion Transformers	Jan 7, 2025	DiversityText-to-Video Generation	CodeCode Available	2
TransPixeler: Advancing Text-to-Video Generation with Transparency	Jan 6, 2025	Text-to-Video GenerationVideo Generation	CodeCode Available	4
ByTheWay: Boost Your Text-to-Video Generation Model to Higher Quality in a Training-free Way	Jan 1, 2025	Text-to-Video GenerationVideo Generation	—Unverified	0
Patch Matters: Training-free Fine-grained Image Caption Enhancement via Local Perception	Jan 1, 2025	Image CaptioningImage Generation	—Unverified	0
EIDT-V: Exploiting Intersections in Diffusion Trajectories for Model-Agnostic, Zero-Shot, Training-Free Text-to-Video Generation	Jan 1, 2025	Image GenerationText-to-Video Generation	—Unverified	0
IM-Zero: Instance-level Motion Controllable Video Generation in a Zero-shot Manner	Jan 1, 2025	Motion GenerationText-to-Video Generation	—Unverified	0
STDD: Spatio-Temporal Dual Diffusion for Video Generation	Jan 1, 2025	Text-to-Video GenerationVideo Generation	—Unverified	0
Gender Bias in Text-to-Video Generation Models: A case study of Sora	Dec 30, 2024	Text-to-Video GenerationVideo Generation	—Unverified	0

Show:10 25 50

← PrevPage 1 of 5Next →

All datasets MSR-VTT UCF-101 EvalCrafter Text-to-Video (ECTV) Dataset Something-Something V2 Kinetics WebVid

Benchmark Results

#	Model	Metric	Claimed	Verified	Status
1	MagicVideo	FVD	998	—	Unverified
2	VideoComposer	FVD	580	—	Unverified
3	ModelScopeT2V	FVD	550	—	Unverified
4	Show-1	FVD	538	—	Unverified
5	TF-T2V	FVD	441	—	Unverified
6	HiGen	FVD	406	—	Unverified
7	PixelDance	FVD	381	—	Unverified
8	VideoPoet	FVD	213	—	Unverified
9	Video-LaVIT	FVD	188.36	—	Unverified
10	Snap Video (288×288)	FVD	110.4	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	MagicVideo (Zero-shot, 256x256)	FVD16	699	—	Unverified
2	Video LDM (Zero-shot, 320x512)	FVD16	550.61	—	Unverified
3	LAVIE (Zero-shot, 320x512)	FVD16	526.3	—	Unverified
4	PYoCo (Zero-shot, 64x64)	FVD16	355.19	—	Unverified
5	VideoPoet	FVD16	355	—	Unverified
6	Lumiere (Zero-shot, 1024x1024)	FVD16	332.49	—	Unverified
7	Snap Video (Zero-shot, 288×288)	FVD16	260.1	—	Unverified
8	W.A.L.T 3B	FVD16	258.1	—	Unverified
9	PixelDance (Zero-shot, 256x256)	FVD16	242.82	—	Unverified
10	Snap Video (Zero-shot, 512x288)	FVD16	200.2	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	VideoCrafter2	Visual Quality	54.82	—	Unverified
2	Show-1	Visual Quality	53.74	—	Unverified
3	VideoCrafter1	Visual Quality	53.08	—	Unverified
4	Lavie	Visual Quality	52.83	—	Unverified
5	ModelScope	Visual Quality	52.47	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	MAGVIT	FVD	79.1	—	Unverified
2	MAGVIT	FVD	28.5	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	NUWA (128×128)	Accuracy	77.9	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	VideoFactory	FVD	292.35	—	Unverified