Text Spotting

Scene Text Spotting is the combination of Scene Text Detection and Scene Text Recognition in an end-to-end manner. It is the ability to read natural text in the wild.

Papers

Recently Added Most Hyped Most Active Needs Verification Most Verified

Showing 1–50 of 112 papers

Title	Date	Tasks	Status	Hype
TextMonkey: An OCR-Free Large Multimodal Model for Understanding Document	Mar 7, 2024	document understandingKey Information Extraction	CodeCode Available	5
DeepSolo++: Let Transformer Decoder with Explicit Points Solo for Multilingual Text Spotting	May 31, 2023	DecoderScene Text Detection	CodeCode Available	2
VimTS: A Unified Video and Image Text Spotter for Enhancing the Cross-domain Generalization	Apr 30, 2024	Domain AdaptationDomain Generalization	CodeCode Available	2
SwinTextSpotter: Scene Text Spotting via Better Synergy between Text Detection and Text Recognition	Mar 19, 2022	Scene Text DetectionText Detection	CodeCode Available	2
Bridging the Gap Between End-to-End and Two-Step Text Spotting	Apr 6, 2024	Text Spotting	CodeCode Available	2
DeepSolo: Let Transformer Decoder with Explicit Points Solo for Text Spotting	Nov 19, 2022	DecoderScene Text Detection	CodeCode Available	2
Hierarchical Text Spotter for Joint Text Spotting and Layout Analysis	Oct 25, 2023	Text Spotting	CodeCode Available	2
ESTextSpotter: Towards Better Scene Text Spotting with Explicit Synergy in Transformer	Aug 20, 2023	DecoderText Detection	CodeCode Available	1
FlowText: Synthesizing Realistic Scene Text Video with Optical Flow Estimation	May 5, 2023	Optical Flow EstimationText Spotting	CodeCode Available	1
SPTS: Single-Point Text Spotting	Dec 15, 2021	Language ModellingText Detection	CodeCode Available	1
ABINet++: Autonomous, Bidirectional and Iterative Language Modeling for Scene Text Spotting	Nov 19, 2022	BlockingLanguage Modeling	CodeCode Available	1
ABCNet: Real-time Scene Text Spotting with Adaptive Bezier-Curve Network	Feb 24, 2020	Scene Text DetectionText Detection	CodeCode Available	1
Filtering, Distillation, and Hard Negatives for Vision-Language Pre-Training	Jan 5, 2023	Contrastive LearningText Spotting	CodeCode Available	1
TextInPlace: Indoor Visual Place Recognition in Repetitive Structures with Scene Text Spotting and Verification	Mar 9, 2025	Robot NavigationSTS	CodeCode Available	1
TPSNet: Reverse Thinking of Thin Plate Splines for Arbitrary Shape Scene Text Representation	Oct 25, 2021	Scene Text DetectionScene Text Recognition	CodeCode Available	1
Towards Robust Visual Information Extraction in Real World: New Dataset and Novel Solution	Jan 24, 2021	3D Feature Matchingdocument understanding	CodeCode Available	1
GoMatching++: Parameter- and Data-Efficient Arbitrary-Shaped Video Text Spotting and Benchmarking	May 28, 2025	BenchmarkingText Spotting	CodeCode Available	1
SPTS v2: Single-Point Scene Text Spotting	Jan 4, 2023	DecoderText Detection	CodeCode Available	1
A Bilingual, OpenWorld Video Text Dataset and End-to-end Video Text Spotter with Transformer	Dec 9, 2021	text annotationText Spotting	CodeCode Available	1
Text Spotting Transformers	Apr 5, 2022	Text DetectionText Spotting	CodeCode Available	1
Towards Unified Scene Text Spotting based on Sequence Generation	Apr 7, 2023	Text Spotting	CodeCode Available	1
ICDAR 2019 Competition on Large-scale Street View Text with Partial Labeling -- RRC-LSVT	Sep 17, 2019	Text DetectionText Spotting	CodeCode Available	1
End-to-End Video Text Spotting with Transformer	Mar 20, 2022	Text DetectionText Spotting	CodeCode Available	1
GoMatching: A Simple Baseline for Video Text Spotting via Long and Short Term Matching	Jan 13, 2024	Text DetectionText Spotting	CodeCode Available	1
SemiETS: Integrating Spatial and Content Consistencies for Semi-Supervised End-to-end Text Spotting	Apr 14, 2025	Domain AdaptationText Detection	CodeCode Available	1
GLASS: Global to Local Attention for Scene-Text Spotting	Aug 5, 2022	Text DetectionText Spotting	CodeCode Available	1
Dictionary-Guided Scene Text Recognition	Jun 19, 2021	Scene Text DetectionScene Text Recognition	CodeCode Available	1
AE TextSpotter: Learning Visual and Linguistic Representation for Ambiguous Text Spotting	Aug 3, 2020	Language ModellingSentence	CodeCode Available	1
ABCNet v2: Adaptive Bezier-Curve Network for Real-time End-to-end Text Spotting	May 8, 2021	Text Spotting	CodeCode Available	1
DNTextSpotter: Arbitrary-Shaped Scene Text Spotting via Improved Denoising Training	Aug 1, 2024	DenoisingGraph Matching	CodeCode Available	1
Parrot Captions Teach CLIP to Spot Text	Dec 21, 2023	Representation Learningtext similarity	CodeCode Available	1
Mask TextSpotter v3: Segmentation Proposal Network for Robust Scene Text Spotting	Jul 18, 2020	Region ProposalText Spotting	CodeCode Available	1
Scalable Mask Annotation for Video Text Spotting	May 2, 2023	Text Spotting	CodeCode Available	1
PAN++: Towards Efficient and Accurate End-to-End Spotting of Arbitrarily-Shaped Text	May 2, 2021	Scene Text DetectionText Detection	CodeCode Available	1
SwinTextSpotter v2: Towards Better Synergy for Scene Text Spotting	Jan 15, 2024	Text DetectionText Spotting	CodeCode Available	1
Scene Text Retrieval via Joint Text Detection and Similarity Learning	Apr 4, 2021	RetrievalScene Text Detection	CodeCode Available	1
Mixed Text Recognition with Efficient Parameter Fine-Tuning and Transformer	Apr 19, 2024	DecoderOptical Character Recognition	—Unverified	0
Block-level Text Spotting with LLMs	Jun 19, 2024	Language ModelingLanguage Modelling	—Unverified	0
Diving into the Depths of Spotting Text in Multi-Domain Noisy Scenes	Oct 1, 2023	Super-ResolutionText Spotting	—Unverified	0
Beyond the Mud: Datasets and Benchmarks for Computer Vision in Off-Road Racing	Feb 12, 2024	Optical Character RecognitionOptical Character Recognition (OCR)	—Unverified	0
Deformation Robust Text Spotting with Geometric Prior	Aug 31, 2023	DiversityText Detection	—Unverified	0
DEER: Detection-agnostic End-to-End Recognizer for Scene Text Spotting	Mar 10, 2022	DecoderText Spotting	—Unverified	0
Hear the Scene: Audio-Enhanced Text Spotting	Dec 27, 2024	Text Spotting	—Unverified	0
Attention Where It Matters: Rethinking Visual Document Understanding with Selective Region Concentration	Sep 3, 2023	Decoderdocument understanding	—Unverified	0
ARTS: Eliminating Inconsistency between Text Detection and Recognition with Auto-Rectification Text Spotter	Oct 20, 2021	Text DetectionText Spotting	—Unverified	0
Inverse-like Antagonistic Scene Text Spotting via Reading-Order Estimation and Dynamic Sampling	Jan 8, 2024	Text DetectionText Spotting	—Unverified	0
Deep Neural Network for Semantic-based Text Recognition in Images	Aug 4, 2019	Text Spotting	—Unverified	0
Arbitrary Reading Order Scene Text Spotter with Local Semantics Guidance	Dec 13, 2024	Scene Text RecognitionText Spotting	—Unverified	0
A pooling based scene text proposal technique for scene text reading in the wild	Nov 25, 2018	Scene UnderstandingText Spotting	—Unverified	0
ICDAR 2021 Competition on Scene Video Text Spotting	Jul 26, 2021	Task 2Text Detection	—Unverified	0

Show:10 25 50

← PrevPage 1 of 3Next →

All datasets ICDAR 2015 Total-Text SCUT-CTW1500 Inverse-Text

Benchmark Results

#	Model	Metric	Claimed	Verified	Status
1	UNITS	F-measure (%) - Strong Lexicon	89	—	Unverified
2	DeepSolo (ViTAEv2-S, TextOCR)	F-measure (%) - Strong Lexicon	88.1	—	Unverified
3	DeepSolo(ResNet-50, TextOCR)	F-measure (%) - Strong Lexicon	88	—	Unverified
4	DeepSolo(ResNet-50)	F-measure (%) - Strong Lexicon	86.8	—	Unverified
5	SRTS	F-measure (%) - Strong Lexicon	85.6	—	Unverified
6	TESTR	F-measure (%) - Strong Lexicon	85.2	—	Unverified
7	A3S	F-measure (%) - Strong Lexicon	84.8	—	Unverified
8	GLASS	F-measure (%) - Strong Lexicon	84.7	—	Unverified
9	SwinTextSpotter	F-measure (%) - Strong Lexicon	83.9	—	Unverified
10	FOTS	F-measure (%) - Strong Lexicon	83.6	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	DeepSolo (ViTAEv2-S, TextOCR)	F-measure (%) - No Lexicon	83.6	—	Unverified
2	DeepSolo (ResNet-50, TextOCR)	F-measure (%) - No Lexicon	82.5	—	Unverified
3	DeepSolo (ResNet-50)	F-measure (%) - No Lexicon	79.7	—	Unverified
4	A3S	F-measure (%) - No Lexicon	79.4	—	Unverified
5	UNITS	F-measure (%) - No Lexicon	78.7	—	Unverified
6	GLASS	F-measure (%) - No Lexicon	76.6	—	Unverified
7	DEER	F-measure (%) - No Lexicon	74.8	—	Unverified
8	SwinTextSpotter	F-measure (%) - No Lexicon	74.3	—	Unverified
9	TESTR	F-measure (%) - No Lexicon	73.3	—	Unverified
10	MANGO	F-measure (%) - No Lexicon	72.9	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	A3S	F-measure (%) - No Lexicon	64.4	—	Unverified
2	DeepSolo (ResNet-50)	F-measure (%) - No Lexicon	64.2	—	Unverified
3	SPTS	F-measure (%) - No Lexicon	63.6	—	Unverified
4	ABINet++	F-measure (%) - No Lexicon	60.2	—	Unverified
5	TPSNet	F-measure (%) - No Lexicon	59.7	—	Unverified
6	MANGO	F-measure (%) - No Lexicon	58.9	—	Unverified
7	ABCNet v2	F-measure (%) - No Lexicon	57.5	—	Unverified
8	TextPerceptron	F-measure (%) - No Lexicon	57	—	Unverified
9	TESTR	F-measure (%) - No Lexicon	56	—	Unverified
10	SwinTextSpotter	F-measure (%) - No Lexicon	51.8	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	DeepSolo (ViTAEv2-S, TextOCR)	F-measure (%) - No Lexicon	68.8	—	Unverified
2	DeepSolo (ResNet-50, TextOCR)	F-measure (%) - No Lexicon	64.6	—	Unverified
3	SwinTextSpotter	F-measure (%) - No Lexicon	55.4	—	Unverified
4	DeepSolo (ResNet-50)	F-measure (%) - No Lexicon	48.5	—	Unverified
5	MaskTextSpotter v2	F-measure (%) - No Lexicon	39	—	Unverified
6	SPTS	F-measure (%) - No Lexicon	38.3	—	Unverified
7	ABCNet v2	F-measure (%) - No Lexicon	34.5	—	Unverified
8	TESTR	F-measure (%) - No Lexicon	34.2	—	Unverified
9	ABCNet	F-measure (%) - No Lexicon	22.2	—	Unverified