DiffusionSTR: Diffusion Model for Scene Text Recognition

2023-06-29Unverified0· sign in to hype

Masato Fujitake

Unverified — Be the first to reproduce this paper.

Abstract

This paper presents Diffusion Model for Scene Text Recognition (DiffusionSTR), an end-to-end text recognition framework using diffusion models for recognizing text in the wild. While existing studies have viewed the scene text recognition task as an image-to-text transformation, we rethought it as a text-text one under images in a diffusion model. We show for the first time that the diffusion model can be applied to text recognition. Furthermore, experimental results on publicly available datasets show that the proposed method achieves competitive accuracy compared to state-of-the-art methods.

Tasks

Image to text model Scene Text Recognition

Benchmark Results

Dataset	Model	Metric	Claimed	Verified	Status
CUTE80	DiffusionSTR	Accuracy	92.5	—	Unverified
ICDAR2013	DiffusionSTR	Accuracy	97.1	—	Unverified
ICDAR2015	DiffusionSTR	Accuracy	86	—	Unverified
IIIT5k	DiffusionSTR	Accuracy	97.3	—	Unverified
SVT	DiffusionSTR	Accuracy	93.6	—	Unverified
SVTP	DiffusionSTR	Accuracy	89.2	—	Unverified

DiffusionSTR: Diffusion Model for Scene Text Recognition

Abstract

Tasks

Benchmark Results

Reproductions