Image Generation

Image Generation (synthesis) is the task of generating new images from an existing dataset.

Unconditional generation refers to generating samples unconditionally from the dataset, i.e. $p(y)$
Conditional image generation (subtask) refers to generating samples conditionally from the dataset, based on a label, i.e. $p(y|x)$.

In this section, you can find state-of-the-art leaderboards for unconditional generation. For conditional generation, and other types of image generations, refer to the subtasks.

( Image credit: StyleGAN )

Papers

Recently Added Most Hyped Most Active Needs Verification Most Verified

Showing 2601–2650 of 6689 papers

Title	Date	Tasks	Status	Hype
Synth^2: Boosting Visual-Language Models with Synthetic Captions and Image Embeddings	Mar 12, 2024	Image CaptioningImage Generation	—Unverified	0
Stable-Makeup: When Real-World Makeup Transfer Meets Diffusion Model	Mar 12, 2024	Image GenerationText to Image Generation	CodeCode Available	3
Block-wise LoRA: Revisiting Fine-grained LoRA for Effective Personalization and Stylization in Text-to-Image Generation	Mar 12, 2024	Image Generationparameter-efficient fine-tuning	—Unverified	0
Premonition: Using Generative Models to Preempt Future Data Changes in Continual Learning	Mar 12, 2024	Continual LearningFine-Grained Image Classification	CodeCode Available	0
Optimizing Negative Prompts for Enhanced Aesthetics and Fidelity in Text-To-Image Generation	Mar 12, 2024	Image GenerationText to Image Generation	—Unverified	0
SSM Meets Video Diffusion Models: Efficient Long-Term Video Generation with Structured State Spaces	Mar 12, 2024	GPUImage Generation	CodeCode Available	1
FFAD: A Novel Metric for Assessing Generated Time Series Data Utilizing Fourier Transform and Auto-encoder	Mar 11, 2024	Image GenerationTime Series	—Unverified	0
Medical Image Synthesis via Fine-Grained Image-Text Alignment and Anatomy-Pathology Prompting	Mar 11, 2024	AnatomyDescriptive	—Unverified	0
DivCon: Divide and Conquer for Progressive Text-to-Image Generation	Mar 11, 2024	Image GenerationLayout-to-Image Generation	—Unverified	0
Distribution-Aware Data Expansion with Diffusion Models	Mar 11, 2024	Image GenerationInformativeness	CodeCode Available	1
Advancing Text-Driven Chest X-Ray Generation with Policy-Based Reinforcement Learning	Mar 11, 2024	DenoisingDiagnostic	—Unverified	0
Active Generation for Image Classification	Mar 11, 2024	Active LearningClassification	CodeCode Available	0
FaceChain-SuDe: Building Derived Class to Inherit Category Attributes for One-shot Subject-Driven Generation	Mar 11, 2024	AttributeImage Generation	—Unverified	0
3D-aware Image Generation and Editing with Multi-modal Conditions	Mar 11, 2024	AttributeDisentanglement	—Unverified	0
Enhancing Semantic Fidelity in Text-to-Image Synthesis: Attention Regulation in Diffusion Models	Mar 11, 2024	Image Generation	CodeCode Available	1
VidProM: A Million-scale Real Prompt-Gallery Dataset for Text-to-Video Diffusion Models	Mar 10, 2024	Copy DetectionImage Generation	CodeCode Available	2
V_kD: Improving Knowledge Distillation using Orthogonal Projections	Mar 10, 2024	Image GenerationKnowledge Distillation	CodeCode Available	2
Text-Guided Variational Image Generation for Industrial Anomaly Detection and Segmentation	Mar 10, 2024	Anomaly DetectionImage Generation	—Unverified	0
FastVideoEdit: Leveraging Consistency Models for Efficient Text-to-Video Editing	Mar 10, 2024	Image GenerationText-to-Video Editing	—Unverified	0
PEPSI: Pathology-Enhanced Pulse-Sequence-Invariant Representations for Brain MRI	Mar 10, 2024	AnatomyImage Generation	CodeCode Available	1
Diffusion Lens: Interpreting Text Encoders in Text-to-Image Pipelines	Mar 9, 2024	Image GenerationRetrieval	—Unverified	0
Adaptive Multi-modal Fusion of Spatially Variant Kernel Refinement with Diffusion Model for Blind Image Super-Resolution	Mar 9, 2024	Image GenerationImage Super-Resolution	—Unverified	0
Privacy-Preserving Diffusion Model Using Homomorphic Encryption	Mar 9, 2024	DenoisingImage Generation	CodeCode Available	1
CogView3: Finer and Faster Text-to-Image Generation via Relay Diffusion	Mar 8, 2024	Computational EfficiencyImage Generation	CodeCode Available	5
DiffChat: Learning to Chat with Text-to-Image Synthesis Models for Interactive Image Creation	Mar 8, 2024	Image GenerationInstruction Following	—Unverified	0
Denoising Autoregressive Representation Learning	Mar 8, 2024	DecoderDenoising	—Unverified	0
A Data Augmentation Pipeline to Generate Synthetic Labeled Datasets of 3D Echocardiography Images using a GAN	Mar 8, 2024	Computed Tomography (CT)Data Augmentation	—Unverified	0
Beyond Finite Data: Towards Data-free Out-of-distribution Generalization via Extrapolation	Mar 8, 2024	Domain GeneralizationImage Generation	—Unverified	0
Improving Diffusion-Based Generative Models via Approximated Optimal Transport	Mar 8, 2024	Image Generation	CodeCode Available	0
Fine-tuning a Multiple Instance Learning Feature Extractor with Masked Context Modelling and Knowledge Distillation	Mar 8, 2024	Image GenerationKnowledge Distillation	—Unverified	0
Spectrum Translation for Refinement of Image Generation (STIG) Based on Contrastive Learning and Spectral Filter Profile	Mar 8, 2024	Contrastive LearningFace Swapping	CodeCode Available	0
ELLA: Equip Diffusion Models with LLM for Enhanced Semantic Alignment	Mar 8, 2024	DenoisingImage Generation	CodeCode Available	5
Towards Effective Usage of Human-Centric Priors in Diffusion Models for Text-based Human Image Generation	Mar 8, 2024	Image Generation	—Unverified	0
Synthetic Privileged Information Enhances Medical Image Representation Learning	Mar 8, 2024	Image GenerationMedical Image Analysis	—Unverified	0
StereoDiffusion: Training-Free Stereo Image Generation Using Latent Diffusion Models	Mar 8, 2024	Image Generation	CodeCode Available	2
Evaluating Text-to-Image Generative Models: An Empirical Study on Human Image Synthesis	Mar 8, 2024	Defect DetectionFairness	CodeCode Available	0
Sora as an AGI World Model? A Complete Survey on Text-to-Video Generation	Mar 8, 2024	ArticlesHallucination	—Unverified	0
Discriminative Probing and Tuning for Text-to-Image Generation	Mar 7, 2024	Image GenerationText to Image Generation	—Unverified	0
PixArt-Σ: Weak-to-Strong Training of Diffusion Transformer for 4K Text-to-Image Generation	Mar 7, 2024	4kImage Captioning	CodeCode Available	5
A spatiotemporal style transfer algorithm for dynamic visual stimulus generation	Mar 7, 2024	Image GenerationObject Recognition	—Unverified	0
Measuring Diversity in Co-creative Image Generation	Mar 6, 2024	DiversityImage Generation	—Unverified	0
Investigation of the Impact of Synthetic Training Data in the Industrial Application of Terminal Strip Object Detection	Mar 6, 2024	Image Generationobject-detection	—Unverified	0
PromptCharm: Text-to-Image Generation through Multi-modal Prompting and Refinement	Mar 6, 2024	Image GenerationImage Inpainting	CodeCode Available	1
Unifying Generation and Compression: Ultra-low bitrate Image Coding Via Multi-stage Transformer	Mar 6, 2024	Image Generation	—Unverified	0
Towards Understanding Cross and Self-Attention in Stable Diffusion for Text-Guided Image Editing	Mar 6, 2024	DenoisingImage Generation	—Unverified	0
FLAME Diffuser: Wildfire Image Synthesis using Mask Guided Diffusion	Mar 6, 2024	Fire DetectionImage Generation	CodeCode Available	1
NoiseCollage: A Layout-Aware Text-to-Image Diffusion Model Based on Noise Cropping and Merging	Mar 6, 2024	DenoisingImage Generation	CodeCode Available	2
ENOT: Expectile Regularization for Fast and Accurate Training of Neural Optimal Transport	Mar 6, 2024	Image Generation	—Unverified	0
(Un)paired signal-to-signal translation with 1D conditional GANs	Mar 5, 2024	Audio GenerationGenerative Adversarial Network	—Unverified	0
Behavior Generation with Latent Actions	Mar 5, 2024	Autonomous DrivingDecision Making	CodeCode Available	3

Show:10 25 50

← PrevPage 53 of 134Next →

All datasets ImageNet 256x256 CIFAR-10 ImageNet 64x64 ImageNet 512x512 FFHQ 256 x 256 CelebA 64x64 ImageNet 32x32 LSUN Bedroom 256 x 256 STL-10 LSUN Churches 256 x 256 ImageNet 128x128 FFHQ 1024 x 1024

Benchmark Results

#	Model	Metric	Claimed	Verified	Status
1	Improved DDPM	FID	12.3	—	Unverified
2	ADM	FID	11.84	—	Unverified
3	BigGAN-deep	FID	8.1	—	Unverified
4	Polarity-BigGAN	FID	6.82	—	Unverified
5	VQGAN+Transformer (k=mixed, p=1.0, a=0.005)	FID	6.59	—	Unverified
6	MaskGIT	FID	6.18	—	Unverified
7	VQGAN+Transformer (k=600, p=1.0, a=0.05)	FID	5.2	—	Unverified
8	CDM	FID	4.88	—	Unverified
9	ADM-G	FID	4.59	—	Unverified
10	RIN	FID	4.51	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	PresGAN	FID	52.2	—	Unverified
2	RESFLOW	FID	48.29	—	Unverified
3	Residual Flow	FID	46.37	—	Unverified
4	GLF+perceptual loss (ours)	FID	44.6	—	Unverified
5	ProdPoly no activation functions	FID	40.45	—	Unverified
6	ProdPoly no activation functions	FID	36.77	—	Unverified
7	ACGAN	FID	35.47	—	Unverified
8	DenseFlow-74-10	FID	34.9	—	Unverified
9	NVAE w/ flow	FID	32.53	—	Unverified
10	QSNGAN	FID	31.97	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	GLIDE + CLS	FID	30.87	—	Unverified
2	GLIDE + CLIP	FID	30.46	—	Unverified
3	GLIDE + CLS-FREE	FID	29.22	—	Unverified
4	GLIDE + CLIP + CLS + CLS-FREE	FID	29.18	—	Unverified
5	PGMGAN	FID	21.73	—	Unverified
6	CLR-GAN	FID	20.27	—	Unverified
7	FM	FID	14.45	—	Unverified
8	CT (Direct Generation, NFE=1)	FID	13	—	Unverified
9	CT (Direct Generation, NFE=2)	FID	11.1	—	Unverified
10	GLIDE +CLS	KID	7.95	—	Unverified