Text Spotting

Scene Text Spotting is the combination of Scene Text Detection and Scene Text Recognition in an end-to-end manner. It is the ability to read natural text in the wild.

Papers

Recently Added Most Hyped Most Active Needs Verification Most Verified

Showing 1–50 of 112 papers

Title	Date	Tasks	Status	Hype
TextMonkey: An OCR-Free Large Multimodal Model for Understanding Document	Mar 7, 2024	document understandingKey Information Extraction	CodeCode Available	5
VimTS: A Unified Video and Image Text Spotter for Enhancing the Cross-domain Generalization	Apr 30, 2024	Domain AdaptationDomain Generalization	CodeCode Available	2
Bridging the Gap Between End-to-End and Two-Step Text Spotting	Apr 6, 2024	Text Spotting	CodeCode Available	2
Hierarchical Text Spotter for Joint Text Spotting and Layout Analysis	Oct 25, 2023	Text Spotting	CodeCode Available	2
DeepSolo++: Let Transformer Decoder with Explicit Points Solo for Multilingual Text Spotting	May 31, 2023	DecoderScene Text Detection	CodeCode Available	2
DeepSolo: Let Transformer Decoder with Explicit Points Solo for Text Spotting	Nov 19, 2022	DecoderScene Text Detection	CodeCode Available	2
SwinTextSpotter: Scene Text Spotting via Better Synergy between Text Detection and Text Recognition	Mar 19, 2022	Scene Text DetectionText Detection	CodeCode Available	2
GoMatching++: Parameter- and Data-Efficient Arbitrary-Shaped Video Text Spotting and Benchmarking	May 28, 2025	BenchmarkingText Spotting	CodeCode Available	1
SemiETS: Integrating Spatial and Content Consistencies for Semi-Supervised End-to-end Text Spotting	Apr 14, 2025	Domain AdaptationText Detection	CodeCode Available	1
TextInPlace: Indoor Visual Place Recognition in Repetitive Structures with Scene Text Spotting and Verification	Mar 9, 2025	Robot NavigationSTS	CodeCode Available	1
DNTextSpotter: Arbitrary-Shaped Scene Text Spotting via Improved Denoising Training	Aug 1, 2024	DenoisingGraph Matching	CodeCode Available	1
SwinTextSpotter v2: Towards Better Synergy for Scene Text Spotting	Jan 15, 2024	Text DetectionText Spotting	CodeCode Available	1
GoMatching: A Simple Baseline for Video Text Spotting via Long and Short Term Matching	Jan 13, 2024	Text DetectionText Spotting	CodeCode Available	1
Parrot Captions Teach CLIP to Spot Text	Dec 21, 2023	Representation Learningtext similarity	CodeCode Available	1
ESTextSpotter: Towards Better Scene Text Spotting with Explicit Synergy in Transformer	Aug 20, 2023	DecoderText Detection	CodeCode Available	1
FlowText: Synthesizing Realistic Scene Text Video with Optical Flow Estimation	May 5, 2023	Optical Flow EstimationText Spotting	CodeCode Available	1
Scalable Mask Annotation for Video Text Spotting	May 2, 2023	Text Spotting	CodeCode Available	1
Towards Unified Scene Text Spotting based on Sequence Generation	Apr 7, 2023	Text Spotting	CodeCode Available	1
Filtering, Distillation, and Hard Negatives for Vision-Language Pre-Training	Jan 5, 2023	Contrastive LearningText Spotting	CodeCode Available	1
SPTS v2: Single-Point Scene Text Spotting	Jan 4, 2023	DecoderText Detection	CodeCode Available	1
ABINet++: Autonomous, Bidirectional and Iterative Language Modeling for Scene Text Spotting	Nov 19, 2022	BlockingLanguage Modeling	CodeCode Available	1
GLASS: Global to Local Attention for Scene-Text Spotting	Aug 5, 2022	Text DetectionText Spotting	CodeCode Available	1
Text Spotting Transformers	Apr 5, 2022	Text DetectionText Spotting	CodeCode Available	1
End-to-End Video Text Spotting with Transformer	Mar 20, 2022	Text DetectionText Spotting	CodeCode Available	1
SPTS: Single-Point Text Spotting	Dec 15, 2021	Language ModellingText Detection	CodeCode Available	1
A Bilingual, OpenWorld Video Text Dataset and End-to-end Video Text Spotter with Transformer	Dec 9, 2021	text annotationText Spotting	CodeCode Available	1
TPSNet: Reverse Thinking of Thin Plate Splines for Arbitrary Shape Scene Text Representation	Oct 25, 2021	Scene Text DetectionScene Text Recognition	CodeCode Available	1
Dictionary-Guided Scene Text Recognition	Jun 19, 2021	Scene Text DetectionScene Text Recognition	CodeCode Available	1
ABCNet v2: Adaptive Bezier-Curve Network for Real-time End-to-end Text Spotting	May 8, 2021	Text Spotting	CodeCode Available	1
PAN++: Towards Efficient and Accurate End-to-End Spotting of Arbitrarily-Shaped Text	May 2, 2021	Scene Text DetectionText Detection	CodeCode Available	1
Scene Text Retrieval via Joint Text Detection and Similarity Learning	Apr 4, 2021	RetrievalScene Text Detection	CodeCode Available	1
Towards Robust Visual Information Extraction in Real World: New Dataset and Novel Solution	Jan 24, 2021	3D Feature Matchingdocument understanding	CodeCode Available	1
AE TextSpotter: Learning Visual and Linguistic Representation for Ambiguous Text Spotting	Aug 3, 2020	Language ModellingSentence	CodeCode Available	1
Mask TextSpotter v3: Segmentation Proposal Network for Robust Scene Text Spotting	Jul 18, 2020	Region ProposalText Spotting	CodeCode Available	1
ABCNet: Real-time Scene Text Spotting with Adaptive Bezier-Curve Network	Feb 24, 2020	Scene Text DetectionText Detection	CodeCode Available	1
ICDAR 2019 Competition on Large-scale Street View Text with Partial Labeling -- RRC-LSVT	Sep 17, 2019	Text DetectionText Spotting	CodeCode Available	1
Text-Aware Image Restoration with Diffusion Models	Jun 11, 2025	DenoisingHallucination	—Unverified	0
OmniParser V2: Structured-Points-of-Thought for Unified Visual Text Parsing and Its Generality to Multimodal Large Language Models	Feb 22, 2025	document understandingKey Information Extraction	—Unverified	0
CLIP is Almost All You Need: Towards Parameter-Efficient Scene Text Retrieval without OCR	Jan 1, 2025	AllOptical Character Recognition	—Unverified	0
Hear the Scene: Audio-Enhanced Text Spotting	Dec 27, 2024	Text Spotting	—Unverified	0
InstructOCR: Instruction Boosting Scene Text Spotting	Dec 20, 2024	Optical Character Recognition (OCR)Text Spotting	CodeCode Available	0
Arbitrary Reading Order Scene Text Spotter with Local Semantics Guidance	Dec 13, 2024	Scene Text RecognitionText Spotting	—Unverified	0
HIP: Hierarchical Point Modeling and Pre-training for Visual Information Extraction	Nov 2, 2024	Image ReconstructionOptical Character Recognition (OCR)	—Unverified	0
FastTextSpotter: A High-Efficiency Transformer for Multilingual Scene Text Spotting	Aug 27, 2024	BenchmarkingDecoder	CodeCode Available	0
WeCromCL: Weakly Supervised Cross-Modality Contrastive Learning for Transcription-only Supervised Text Spotting	Jul 28, 2024	Contrastive LearningText Spotting	CodeCode Available	0
CLII: Visual-Text Inpainting via Cross-Modal Predictive Interaction	Jul 23, 2024	Image InpaintingImage Restoration	—Unverified	0
Block-level Text Spotting with LLMs	Jun 19, 2024	Language ModelingLanguage Modelling	—Unverified	0
LOGO: Video Text Spotting with Language Collaboration and Glyph Perception Model	May 29, 2024	PositionText Spotting	—Unverified	0
Mixed Text Recognition with Efficient Parameter Fine-Tuning and Transformer	Apr 19, 2024	DecoderOptical Character Recognition	—Unverified	0
Ensemble Learning for Vietnamese Scene Text Spotting in Urban Environments	Apr 1, 2024	Ensemble LearningText Detection	—Unverified	0

Show:10 25 50

← PrevPage 1 of 3Next →

All datasets ICDAR 2015 Total-Text SCUT-CTW1500 Inverse-Text

Benchmark Results

#	Model	Metric	Claimed	Verified	Status
1	UNITS	F-measure (%) - Strong Lexicon	89	—	Unverified
2	DeepSolo (ViTAEv2-S, TextOCR)	F-measure (%) - Strong Lexicon	88.1	—	Unverified
3	DeepSolo(ResNet-50, TextOCR)	F-measure (%) - Strong Lexicon	88	—	Unverified
4	DeepSolo(ResNet-50)	F-measure (%) - Strong Lexicon	86.8	—	Unverified
5	SRTS	F-measure (%) - Strong Lexicon	85.6	—	Unverified
6	TESTR	F-measure (%) - Strong Lexicon	85.2	—	Unverified
7	A3S	F-measure (%) - Strong Lexicon	84.8	—	Unverified
8	GLASS	F-measure (%) - Strong Lexicon	84.7	—	Unverified
9	SwinTextSpotter	F-measure (%) - Strong Lexicon	83.9	—	Unverified
10	FOTS	F-measure (%) - Strong Lexicon	83.6	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	DeepSolo (ViTAEv2-S, TextOCR)	F-measure (%) - No Lexicon	83.6	—	Unverified
2	DeepSolo (ResNet-50, TextOCR)	F-measure (%) - No Lexicon	82.5	—	Unverified
3	DeepSolo (ResNet-50)	F-measure (%) - No Lexicon	79.7	—	Unverified
4	A3S	F-measure (%) - No Lexicon	79.4	—	Unverified
5	UNITS	F-measure (%) - No Lexicon	78.7	—	Unverified
6	GLASS	F-measure (%) - No Lexicon	76.6	—	Unverified
7	DEER	F-measure (%) - No Lexicon	74.8	—	Unverified
8	SwinTextSpotter	F-measure (%) - No Lexicon	74.3	—	Unverified
9	TESTR	F-measure (%) - No Lexicon	73.3	—	Unverified
10	MANGO	F-measure (%) - No Lexicon	72.9	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	A3S	F-measure (%) - No Lexicon	64.4	—	Unverified
2	DeepSolo (ResNet-50)	F-measure (%) - No Lexicon	64.2	—	Unverified
3	SPTS	F-measure (%) - No Lexicon	63.6	—	Unverified
4	ABINet++	F-measure (%) - No Lexicon	60.2	—	Unverified
5	TPSNet	F-measure (%) - No Lexicon	59.7	—	Unverified
6	MANGO	F-measure (%) - No Lexicon	58.9	—	Unverified
7	ABCNet v2	F-measure (%) - No Lexicon	57.5	—	Unverified
8	TextPerceptron	F-measure (%) - No Lexicon	57	—	Unverified
9	TESTR	F-measure (%) - No Lexicon	56	—	Unverified
10	SwinTextSpotter	F-measure (%) - No Lexicon	51.8	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	DeepSolo (ViTAEv2-S, TextOCR)	F-measure (%) - No Lexicon	68.8	—	Unverified
2	DeepSolo (ResNet-50, TextOCR)	F-measure (%) - No Lexicon	64.6	—	Unverified
3	SwinTextSpotter	F-measure (%) - No Lexicon	55.4	—	Unverified
4	DeepSolo (ResNet-50)	F-measure (%) - No Lexicon	48.5	—	Unverified
5	MaskTextSpotter v2	F-measure (%) - No Lexicon	39	—	Unverified
6	SPTS	F-measure (%) - No Lexicon	38.3	—	Unverified
7	ABCNet v2	F-measure (%) - No Lexicon	34.5	—	Unverified
8	TESTR	F-measure (%) - No Lexicon	34.2	—	Unverified
9	ABCNet	F-measure (%) - No Lexicon	22.2	—	Unverified