Scene Text Recognition

See Scene Text Detection for leaderboards in this task.

Papers

Recently Added Most Hyped Most Active Needs Verification Most Verified

Showing 101–150 of 269 papers

Title	Date	Tasks	Status
Out of Length Text Recognition with Sub-String Matching	Jul 17, 2024	Scene Text Recognition	—Unverified
Focus on the Whole Character: Discriminative Character Modeling for Scene Text Recognition	Jul 8, 2024	Scene Text Recognition	CodeCode Available
The First Swahili Language Scene Text Detection and Recognition Dataset	May 19, 2024	Information RetrievalScene Text Detection	CodeCode Available
HAAP: Vision-context Hierarchical Attention Autoregressive with Adaptive Permutation for Scene Text Recognition	May 15, 2024	DiversityLanguage Modeling	—Unverified
Choose What You Need: Disentangled Representation Learning for Scene Text Recognition, Removal and Editing	May 7, 2024	DecoderRepresentation Learning	—Unverified
Mixed Text Recognition with Efficient Parameter Fine-Tuning and Transformer	Apr 19, 2024	DecoderOptical Character Recognition	—Unverified
JSTR: Judgment Improves Scene Text Recognition	Apr 9, 2024	Scene Text Recognition	—Unverified
Open-Vocabulary Scene Text Recognition via Pseudo-Image Labeling and Margin Loss	Mar 12, 2024	Image InpaintingOptical Character Recognition (OCR)	—Unverified
IndicSTR12: A Dataset for Indic Scene Text Recognition	Mar 12, 2024	BenchmarkingScene Text Recognition	—Unverified
Efficiently Leveraging Linguistic Priors for Scene Text Spotting	Feb 27, 2024	Scene Text RecognitionText Detection	—Unverified
Sequential Visual and Semantic Consistency for Semi-supervised Text Recognition	Feb 24, 2024	Scene Text RecognitionSemantic Similarity	—Unverified
Lumos : Empowering Multimodal LLMs with Scene Text Recognition	Feb 12, 2024	Language ModelingLanguage Modelling	—Unverified
Instruction-Guided Scene Text Recognition	Jan 31, 2024	Question AnsweringScene Text Recognition	—Unverified
CMFN: Cross-Modal Fusion Network for Irregular Scene Text Recognition	Jan 18, 2024	PositionScene Text Recognition	—Unverified
Choose What You Need: Disentangled Representation Learning for Scene Text Recognition Removal and Editing	Jan 1, 2024	DecoderRepresentation Learning	—Unverified
OTE: Exploring Accurate Scene Text Recognition Using One Token	Jan 1, 2024	DecoderScene Text Recognition	CodeCode Available
IPAD: Iterative, Parallel, and Diffusion-based Network for Scene Text Recognition	Dec 19, 2023	Conditional Text GenerationDecoder	CodeCode Available
STR-Cert: Robustness Certification for Deep Text Recognition on Deep Learning Pipelines and Vision Transformers	Nov 28, 2023	Scene Text Recognition	—Unverified
Recognition-Guided Diffusion Model for Scene Text Image Super-Resolution	Nov 22, 2023	DenoisingDiversity	—Unverified
DocXChain: A Powerful Open-Source Toolchain for Document Parsing and Beyond	Oct 19, 2023	Document AIDocument Layout Analysis	—Unverified
Towards Large-scale Building Attribute Mapping using Crowdsourced Images: Scene Text Recognition on Flickr and Problems to be Solved	Sep 14, 2023	AttributeScene Text Recognition	CodeCode Available
LISTER: Neighbor Decoding for Length-Insensitive Scene Text Recognition	Aug 24, 2023	DecoderScene Text Recognition	—Unverified
Multi-Granularity Prediction with Learnable Fusion for Scene Text Recognition	Jul 25, 2023	Language ModellingOptical Character Recognition (OCR)	—Unverified
Context Perception Parallel Decoder for Scene Text Recognition	Jul 23, 2023	DecoderLanguage Modelling	—Unverified
Reading Between the Lanes: Text VideoQA on the Road	Jul 8, 2023	Question AnsweringScene Text Recognition	CodeCode Available
DiffusionSTR: Diffusion Model for Scene Text Recognition	Jun 29, 2023	Image to textmodel	—Unverified
Weakly Supervised Scene Text Generation for Low-resource Languages	Jun 25, 2023	Scene Text RecognitionText Generation	—Unverified
Masked and Permuted Implicit Context Learning for Scene Text Recognition	May 25, 2023	DecoderLanguage Modeling	CodeCode Available
Scene Text Recognition with Image-Text Matching-guided Dictionary	May 8, 2023	Image-text matchingLanguage Modeling	—Unverified
Improving Scene Text Recognition for Character-Level Long-Tailed Distribution	Mar 31, 2023	Scene Text Recognition	—Unverified
Context-Aware Selective Label Smoothing for Calibrating Sequence Recognition Model	Mar 13, 2023	Decision MakingScene Text Recognition	—Unverified
Diffusion in the Dark: A Diffusion Model for Low-Light Text Recognition	Mar 7, 2023	Image ReconstructionScene Text Recognition	—Unverified
Augmented Transformers with Adaptive n-grams Embedding for Multilingual Scene Text Recognition	Feb 28, 2023	Language IdentificationScene Text Recognition	—Unverified
Geometric Perception based Efficient Text Recognition	Feb 8, 2023	Scene Text Recognition	CodeCode Available
CLIPTER: Looking at the Bigger Picture in Scene Text Recognition	Jan 18, 2023	Language ModelingLanguage Modelling	—Unverified
Portmanteauing Features for Scene Text Recognition	Nov 9, 2022	Scene Text Recognition	—Unverified
Pure Transformer with Integrated Experts for Scene Text Recognition	Nov 9, 2022	DecoderScene Text Recognition	—Unverified
Scene Text Recognition with Semantics	Oct 19, 2022	Scene Text Recognition	—Unverified
Scene Text Image Super-Resolution via Content Perceptual Loss and Criss-Cross Transformer Blocks	Oct 13, 2022	Image ReconstructionImage Super-Resolution	—Unverified
Reading Chinese in Natural Scenes with a Bag-of-Radicals Prior	Oct 5, 2022	Scene Text Recognition	—Unverified
Out-of-Vocabulary Challenge Report	Sep 14, 2022	Optical Character RecognitionOptical Character Recognition (OCR)	—Unverified
Multi-Granularity Prediction for Scene Text Recognition	Sep 8, 2022	Language ModelingLanguage Modelling	CodeCode Available
Levenshtein OCR	Sep 8, 2022	Imitation LearningOptical Character Recognition (OCR)	CodeCode Available
Scene Text Recognition with Single-Point Decoding Network	Sep 5, 2022	Scene Text Recognition	—Unverified
Vision-Language Adaptive Mutual Decoder for OOV-STR	Sep 2, 2022	DecoderLanguage Modeling	—Unverified
1st Place Solution to ECCV 2022 Challenge on Out of Vocabulary Scene Text Understanding: End-to-End Recognition of Out of Vocabulary Words	Sep 1, 2022	Autonomous DrivingScene Text Recognition	—Unverified
Optimal Boxes: Boosting End-to-End Scene Text Recognition by Adjusting Annotated Bounding Boxes via Reinforcement Learning	Jul 25, 2022	Domain AdaptationOptical Character Recognition (OCR)	—Unverified
SGBANet: Semantic GAN and Balanced Attention Network for Arbitrarily Oriented Scene Text Recognition	Jul 21, 2022	Image-to-Image TranslationScene Text Recognition	—Unverified
SVTR: Scene Text Recognition with a Single Visual Model	Apr 30, 2022	Scene Text Recognition	CodeCode Available
Towards Open-Set Text Recognition via Label-to-Prototype Learning	Mar 10, 2022	Scene Text Recognition	—Unverified

Show:10 25 50

← PrevPage 3 of 6Next →

All datasets ICDAR2013 SVT ICDAR2015 CUTE80 IIIT5k SVTP ICDAR 2003 WOST IC19-Art COCO-Text HOST Uber-Text

Benchmark Results

#	Model	Metric	Claimed	Verified	Status
1	CLIP4STR-L*	Accuracy	99.42	—	Unverified
2	DTrOCR 105M	Accuracy	99.4	—	Unverified
3	CLIP4STR-L (DataComp-1B)	Accuracy	99	—	Unverified
4	MGP-STR	Accuracy	98.5	—	Unverified
5	CLIP4STR-L	Accuracy	98.5	—	Unverified
6	CLIP4STR-B	Accuracy	98.3	—	Unverified
7	CCD-ViT-Base(ARD_2.8M)	Accuracy	98.3	—	Unverified
8	CCD-ViT-Small(ARD_2.8M)	Accuracy	98.3	—	Unverified
9	MATRN	Accuracy	97.9	—	Unverified
10	S-GTR	Accuracy	97.8	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	CLIP4STR-H (DFN-5B)	Accuracy	99.1	—	Unverified
2	DTrOCR 105M	Accuracy	98.9	—	Unverified
3	CLIP4STR-B*	Accuracy	98.76	—	Unverified
4	MGP-STR	Accuracy	98.6	—	Unverified
5	CLIP4STR-L (DataComp-1B)	Accuracy	98.6	—	Unverified
6	CLIP4STR-L	Accuracy	98.5	—	Unverified
7	CPPD	Accuracy	98.5	—	Unverified
8	CLIP4STR-B	Accuracy	98.3	—	Unverified
9	CCD-ViT-Base(ARD_2.8M)	Accuracy	97.8	—	Unverified
10	CCD-ViT-Small(ARD_2.8M)	Accuracy	96.4	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	DTrOCR 105M	Accuracy	93.5	—	Unverified
2	CLIP4STR-L*	Accuracy	92.6	—	Unverified
3	CPPD	Accuracy	91.7	—	Unverified
4	CLIP4STR-L (DataComp-1B)	Accuracy	91.4	—	Unverified
5	MGP-STR	Accuracy	90.9	—	Unverified
6	CLIP4STR-L	Accuracy	90.8	—	Unverified
7	CLIP4STR-B	Accuracy	90.6	—	Unverified
8	SIGA_S	Accuracy	87.6	—	Unverified
9	S-GTR	Accuracy	87.3	—	Unverified
10	MATRN	Accuracy	86.6	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	CPPD	Accuracy	99.7	—	Unverified
2	CLIP4STR-L (DataComp-1B)	Accuracy	99.7	—	Unverified
3	CLIP4STR-B*	Accuracy	99.65	—	Unverified
4	MGP-STR	Accuracy	99.31	—	Unverified
5	CLIP4STR-B	Accuracy	99.3	—	Unverified
6	DTrOCR 105M	Accuracy	99.1	—	Unverified
7	CLIP4STR-L	Accuracy	99	—	Unverified
8	CCD-ViT-Base(ARD_2.8M)	Accuracy	98.3	—	Unverified
9	CCD-ViT-Small(ARD_2.8M)	Accuracy	98.3	—	Unverified
10	CCD-ViT-Tiny(ARD_2.8M)	Accuracy	95.8	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	DTrOCR 105M	Accuracy	99.6	—	Unverified
2	CLIP4STR-L (DataComp-1B)	Accuracy	99.6	—	Unverified
3	CLIP4STR-L	Accuracy	99.5	—	Unverified
4	CLIP4STR-B (DataComp-1B)	Accuracy	99.5	—	Unverified
5	CPPD	Accuracy	99.3	—	Unverified
6	CLIP4STR-B	Accuracy	99.2	—	Unverified
7	MGP-STR	Accuracy	98.8	—	Unverified
8	CCD-ViT-Base(ARD_2.8M)	Accuracy	98	—	Unverified
9	CCD-ViT-Small(ARD_2.8M)	Accuracy	98	—	Unverified
10	S-GTR	Accuracy	97.5	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	DTrOCR 105M	Accuracy	98.6	—	Unverified
2	MGP-STR	Accuracy	98.3	—	Unverified
3	CLIP4STR-L*	Accuracy	98.13	—	Unverified
4	CLIP4STR-L (DataComp-1B)	Accuracy	98.1	—	Unverified
5	CLIP4STR-L	Accuracy	97.4	—	Unverified
6	CLIP4STR-B	Accuracy	97.2	—	Unverified
7	CPPD	Accuracy	96.7	—	Unverified
8	CCD-ViT-Base	Accuracy	96.1	—	Unverified
9	CCD-ViT-Small	Accuracy	92.7	—	Unverified
10	CCD-ViT-Tiny	Accuracy	91.6	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	Yet Another Text Recognizer	Accuracy	97.1	—	Unverified
2	SIGA_T	Accuracy	97	—	Unverified
3	SATRN	Accuracy	96.7	—	Unverified
4	DAN	Accuracy	95	—	Unverified
5	SAFL	Accuracy	95	—	Unverified
6	CSTR	Accuracy	94.8	—	Unverified
7	Baek et al.	Accuracy	94.4	—	Unverified
8	ViTSTR	Accuracy	94.3	—	Unverified
9	AON	Accuracy	91.5	—	Unverified
10	RARE	Accuracy	90.1	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	CLIP4STR-H (DFN-5B)	1:1 Accuracy	90.9	—	Unverified
2	CLIP4STR-L (DataComp-1B)	1:1 Accuracy	90.6	—	Unverified
3	CLIP4STR-L	1:1 Accuracy	88.8	—	Unverified
4	CLIP4STR-B	1:1 Accuracy	87	—	Unverified
5	CCD-ViT-Base	1:1 Accuracy	86	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	CLIP4STR-L (DataComp-1B)	Accuracy (%)	86.4	—	Unverified
2	CLIP4STR-L	Accuracy (%)	85.9	—	Unverified
3	CLIP4STR-B	Accuracy (%)	85.8	—	Unverified
4	MGP-STR	Accuracy (%)	85.5	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	CLIP4STR-L	1:1 Accuracy	81.9	—	Unverified
2	MGP-STR	1:1 Accuracy	81.7	—	Unverified
3	CLIP4STR-B	1:1 Accuracy	81.1	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	CLIP4STR-L	1:1 Accuracy	82.7	—	Unverified
2	CLIP4STR-B	1:1 Accuracy	79.8	—	Unverified
3	CCD-ViT-Base	1:1 Accuracy	77.3	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	CLIP4STR-L (DataComp-1B)	Accuracy (%)	92.2	—	Unverified
2	MGP-STR	Accuracy (%)	91	—	Unverified
3	CLIP4STR-B	Accuracy (%)	86.8	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	ABINet-LV+TPS++	Accuracy	97.8	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	MLDG	Average Accuracy	19.02	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	ABINet-LV+TPS++	Accuracy	89.6	—	Unverified