Image Generation

Image Generation (synthesis) is the task of generating new images from an existing dataset.

Unconditional generation refers to generating samples unconditionally from the dataset, i.e. $p(y)$
Conditional image generation (subtask) refers to generating samples conditionally from the dataset, based on a label, i.e. $p(y|x)$.

In this section, you can find state-of-the-art leaderboards for unconditional generation. For conditional generation, and other types of image generations, refer to the subtasks.

( Image credit: StyleGAN )

Papers

Recently Added Most Hyped Most Active Needs Verification Most Verified

Showing 351–400 of 6689 papers

Title	Date	Tasks	Status	Hype
Next Patch Prediction for Autoregressive Visual Generation	Dec 19, 2024	Image GenerationPrediction	CodeCode Available	2
Causal Diffusion Transformers for Generative Modeling	Dec 16, 2024	DecoderImage Generation	CodeCode Available	2
Financial Fine-tuning a Large Time Series Model	Dec 13, 2024	Image GenerationPrediction	CodeCode Available	2
Simple Guidance Mechanisms for Discrete Diffusion Models	Dec 13, 2024	Image Generation	CodeCode Available	2
Diffusion-Enhanced Test-time Adaptation with Text and Image Augmentation	Dec 12, 2024	Image AugmentationImage Generation	CodeCode Available	2
LAION-SG: An Enhanced Large-Scale Dataset for Training Complex Image-Text Models with Structural Annotations	Dec 11, 2024	AttributeImage Generation	CodeCode Available	2
Proactive Agents for Multi-Turn Text-to-Image Generation Under Uncertainty	Dec 9, 2024	Image GenerationText to Image Generation	CodeCode Available	2
EMOv2: Pushing 5M Vision Model Frontier	Dec 9, 2024	Image Generationmodel	CodeCode Available	2
ZipAR: Accelerating Auto-regressive Image Generation through Spatial Locality	Dec 5, 2024	Image Generation	CodeCode Available	2
Generative Photography: Scene-Consistent Camera Control for Realistic Text-to-Image Synthesis	Dec 3, 2024	Image Generation	CodeCode Available	2
TextSSR: Diffusion-based Data Synthesis for Scene Text Recognition	Dec 2, 2024	Image GenerationOptical Character Recognition (OCR)	CodeCode Available	2
TinyFusion: Diffusion Transformers Learned Shallow	Dec 2, 2024	Image Generation	CodeCode Available	2
X-Prompt: Towards Universal In-Context Image Generation in Auto-Regressive Vision Language Foundation Models	Dec 2, 2024	Image GenerationIn-Context Learning	CodeCode Available	2
OmniFlow: Any-to-Any Generation with Multi-Modal Rectified Flows	Dec 2, 2024	Audio SynthesisImage Generation	CodeCode Available	2
Playable Game Generation	Dec 1, 2024	GPUImage Generation	CodeCode Available	2
TexGaussian: Generating High-quality PBR Material via Octree-based 3D Gaussian Splatting	Nov 29, 2024	DenoisingImage Generation	CodeCode Available	2
TryOffDiff: Virtual-Try-Off via High-Fidelity Garment Reconstruction using Diffusion Models	Nov 27, 2024	Garment ReconstructionImage Generation	CodeCode Available	2
Towards Stabilized and Efficient Diffusion Transformers through Long-Skip-Connections with Spectral Constraints	Nov 26, 2024	DenoisingImage Generation	CodeCode Available	2
Collaborative Decoding Makes Visual Auto-Regressive Modeling Efficient	Nov 26, 2024	GPUImage Generation	CodeCode Available	2
What Makes a Scene ? Scene Graph-based Evaluation and Feedback for Controllable Generation	Nov 23, 2024	Image GenerationScene Generation	CodeCode Available	2
AnyText2: Visual Text Generation and Editing With Customizable Attributes	Nov 22, 2024	Image GenerationText Generation	CodeCode Available	2
MMGenBench: Evaluating the Limits of LMMs from the Text-to-Image Generation Perspective	Nov 21, 2024	Image ComprehensionImage Generation	CodeCode Available	2
RAW-Diffusion: RGB-Guided Diffusion Models for High-Fidelity RAW Image Generation	Nov 20, 2024	Image Generationobject-detection	CodeCode Available	2
HyperGAN-CLIP: A Unified Framework for Domain Adaptation, Image Synthesis and Manipulation	Nov 19, 2024	Domain AdaptationImage Generation	CodeCode Available	2
From Text to Pose to Image: Improving Diffusion Model Control and Quality	Nov 19, 2024	Image GenerationPrompt Engineering	CodeCode Available	2
M-VAR: Decoupled Scale-wise Autoregressive Modeling for High-Quality Image Generation	Nov 15, 2024	Image GenerationMamba	CodeCode Available	2
Physics Informed Distillation for Diffusion Models	Nov 13, 2024	Dataset GenerationImage Generation	CodeCode Available	2
TIPO: Text to Image with Text Presampling for Prompt Optimization	Nov 12, 2024	Image GenerationLanguage Modeling	CodeCode Available	2
Token Merging for Training-Free Semantic Binding in Text-to-Image Synthesis	Nov 11, 2024	AttributeImage Generation	CodeCode Available	2
GrounDiT: Grounding Diffusion Transformers via Noisy Patch Transplantation	Oct 27, 2024	Image GenerationText to Image Generation	CodeCode Available	2
Adversarial Score identity Distillation: Rapidly Surpassing the Teacher in One Step	Oct 19, 2024	Conditional Image GenerationGPU	CodeCode Available	2
SeaS: Few-shot Industrial Anomaly Image Generation with Separation and Sharing Fine-tuning	Oct 19, 2024	Image Generation	CodeCode Available	2
HiCo: Hierarchical Controllable Diffusion Model for Layout-to-image Generation	Oct 18, 2024	DisentanglementImage Generation	CodeCode Available	2
BiGR: Harnessing Binary Latent Codes for Image Generation and Improved Visual Representation Capabilities	Oct 18, 2024	Conditional Image GenerationImage Generation	CodeCode Available	2
ARKit LabelMaker: A New Scale for Indoor 3D Scene Understanding	Oct 17, 2024	3D Semantic SegmentationImage Generation	CodeCode Available	2
PUMA: Empowering Unified MLLM with Multi-granular Visual Generation	Oct 17, 2024	DiversityImage Generation	CodeCode Available	2
Fluid: Scaling Autoregressive Text-to-image Generative Models with Continuous Tokens	Oct 17, 2024	Image GenerationText to Image Generation	CodeCode Available	2
Stabilize the Latent Space for Image Autoregressive Modeling: A Unified Perspective	Oct 16, 2024	Conditional Image GenerationImage Generation	CodeCode Available	2
TextCtrl: Diffusion-based Scene Text Editing with Prior Guidance Control	Oct 14, 2024	DisentanglementImage Generation	CodeCode Available	2
High-Precision Dichotomous Image Segmentation via Probing Diffusion Capacity	Oct 14, 2024	DenoisingDichotomous Image Segmentation	CodeCode Available	2
EvolveDirector: Approaching Advanced Text-to-Image Generation with Large Vision-Language Models	Oct 9, 2024	Image GenerationText to Image Generation	CodeCode Available	2
Think While You Generate: Discrete Diffusion with Planned Denoising	Oct 8, 2024	DenoisingImage Generation	CodeCode Available	2
Dynamic Diffusion Transformer	Oct 4, 2024	Image Generation	CodeCode Available	2
A Spark of Vision-Language Intelligence: 2-Dimensional Autoregressive Transformer for Efficient Finegrained Image Generation	Oct 2, 2024	Image GenerationQuantization	CodeCode Available	2
Effective Diffusion Transformer Architecture for Image Super-Resolution	Sep 29, 2024	Image GenerationImage Super-Resolution	CodeCode Available	2
Conditional Image Synthesis with Diffusion Models: A Survey	Sep 28, 2024	DenoisingDiversity	CodeCode Available	2
FlowTurbo: Towards Real-time Flow-Based Image Generation with Velocity Refiner	Sep 26, 2024	Image GenerationText to Image Generation	CodeCode Available	2
Resolving Multi-Condition Confusion for Finetuning-Free Personalized Image Generation	Sep 26, 2024	Image GenerationObject	CodeCode Available	2
MonoFormer: One Transformer for Both Diffusion and Autoregression	Sep 24, 2024	Image GenerationText Generation	CodeCode Available	2
MaskBit: Embedding-free Image Generation via Bit Tokens	Sep 24, 2024	Conditional Image GenerationImage Generation	CodeCode Available	2

Show:10 25 50

← PrevPage 8 of 134Next →

All datasets ImageNet 256x256 CIFAR-10 ImageNet 64x64 ImageNet 512x512 FFHQ 256 x 256 CelebA 64x64 ImageNet 32x32 LSUN Bedroom 256 x 256 STL-10 LSUN Churches 256 x 256 ImageNet 128x128 FFHQ 1024 x 1024

Benchmark Results

#	Model	Metric	Claimed	Verified	Status
1	Improved DDPM	FID	12.3	—	Unverified
2	ADM	FID	11.84	—	Unverified
3	BigGAN-deep	FID	8.1	—	Unverified
4	Polarity-BigGAN	FID	6.82	—	Unverified
5	VQGAN+Transformer (k=mixed, p=1.0, a=0.005)	FID	6.59	—	Unverified
6	MaskGIT	FID	6.18	—	Unverified
7	VQGAN+Transformer (k=600, p=1.0, a=0.05)	FID	5.2	—	Unverified
8	CDM	FID	4.88	—	Unverified
9	ADM-G	FID	4.59	—	Unverified
10	RIN	FID	4.51	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	PresGAN	FID	52.2	—	Unverified
2	RESFLOW	FID	48.29	—	Unverified
3	Residual Flow	FID	46.37	—	Unverified
4	GLF+perceptual loss (ours)	FID	44.6	—	Unverified
5	ProdPoly no activation functions	FID	40.45	—	Unverified
6	ProdPoly no activation functions	FID	36.77	—	Unverified
7	ACGAN	FID	35.47	—	Unverified
8	DenseFlow-74-10	FID	34.9	—	Unverified
9	NVAE w/ flow	FID	32.53	—	Unverified
10	QSNGAN	FID	31.97	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	GLIDE + CLS	FID	30.87	—	Unverified
2	GLIDE + CLIP	FID	30.46	—	Unverified
3	GLIDE + CLS-FREE	FID	29.22	—	Unverified
4	GLIDE + CLIP + CLS + CLS-FREE	FID	29.18	—	Unverified
5	PGMGAN	FID	21.73	—	Unverified
6	CLR-GAN	FID	20.27	—	Unverified
7	FM	FID	14.45	—	Unverified
8	CT (Direct Generation, NFE=1)	FID	13	—	Unverified
9	CT (Direct Generation, NFE=2)	FID	11.1	—	Unverified
10	GLIDE +CLS	KID	7.95	—	Unverified