Optical Character Recognition (OCR)

Optical Character Recognition or Optical Character Reader (OCR) is the electronic or mechanical conversion of images of typed, handwritten or printed text into machine-encoded text, whether from a scanned document, a photo of a document, a scene-photo (for example the text on signs and billboards in a landscape photo, license plates in cars...) or from subtitle text superimposed on an image (for example: from a television broadcast)

Papers

Recently Added Most Hyped Most Active Needs Verification Most Verified

Showing 326–350 of 1209 papers

Title	Date	Tasks	Status	Hype
Advanced Knowledge Extraction of Physical Design Drawings, Translation and conversion to CAD formats using Deep Learning	Mar 17, 2024	Edge DetectionLine Detection	—Unverified	0
TextBlockV2: Towards Precise-Detection-Free Scene Text Spotting with Pre-trained Language Model	Mar 15, 2024	Language ModelingLanguage Modelling	—Unverified	0
Eyes Closed, Safety On: Protecting Multimodal LLMs via Image-to-Text Transformation	Mar 14, 2024	Image to textOptical Character Recognition (OCR)	—Unverified	0
Adversarial Training with OCR Modality Perturbation for Scene-Text Visual Question Answering	Mar 14, 2024	Optical Character RecognitionOptical Character Recognition (OCR)	CodeCode Available	0
Rich Semantic Knowledge Enhanced Large Language Models for Few-shot Chinese Spell Checking	Mar 13, 2024	Chinese Spell CheckingIn-Context Learning	—Unverified	0
The future of document indexing: GPT and Donut revolutionize table of content processing	Mar 12, 2024	Language ModelingLanguage Modelling	—Unverified	0
Open-Vocabulary Scene Text Recognition via Pseudo-Image Labeling and Margin Loss	Mar 12, 2024	Image InpaintingOptical Character Recognition (OCR)	—Unverified	0
DeepSeek-VL: Towards Real-World Vision-Language Understanding	Mar 8, 2024	ChatbotLanguage Modelling	CodeCode Available	7
TextMonkey: An OCR-Free Large Multimodal Model for Understanding Document	Mar 7, 2024	document understandingKey Information Extraction	CodeCode Available	5
Multimodal Transformer for Comics Text-Cloze	Mar 6, 2024	Language ModelingLanguage Modelling	—Unverified	0
LOCR: Location-Guided Transformer for Optical Character Recognition	Mar 4, 2024	MarketingOptical Character Recognition	—Unverified	0
Large Language Models for Simultaneous Named Entity Extraction and Spelling Correction	Mar 1, 2024	DecoderOptical Character Recognition	—Unverified	0
ODM: A Text-Image Further Alignment Pre-training Approach for Scene Text Detection and Spotting	Mar 1, 2024	Optical Character RecognitionOptical Character Recognition (OCR)	CodeCode Available	1
Advancing Generative Model Evaluation: A Novel Algorithm for Realistic Image Synthesis and Comparison in OCR System	Feb 27, 2024	Image GenerationOptical Character Recognition (OCR)	—Unverified	0
Representing Online Handwriting for Recognition in Large Vision-Language Models	Feb 23, 2024	Handwriting RecognitionOptical Character Recognition	—Unverified	0
Syntactic Language Change in English and German: Metrics, Parsers, and Convergences	Feb 18, 2024	Optical Character Recognition (OCR)Sentence	CodeCode Available	0
TEXTRON: Weakly Supervised Multilingual Text Detection through Data Programming	Feb 15, 2024	Optical Character Recognition (OCR)Text Detection	CodeCode Available	1
Beyond the Mud: Datasets and Benchmarks for Computer Vision in Off-Road Racing	Feb 12, 2024	Optical Character RecognitionOptical Character Recognition (OCR)	—Unverified	0
ClusterTabNet: Supervised clustering method for table detection and table structure recognition	Feb 12, 2024	ClusteringOptical Character Recognition (OCR)	CodeCode Available	1
Segmentation-free Connectionist Temporal Classification loss based OCR Model for Text Captcha Classification	Feb 8, 2024	CAPTCHA DetectionClassification	—Unverified	0
SPHINX-X: Scaling Data and Parameters for a Family of Multi-modal Large Language Models	Feb 8, 2024	BenchmarkingDiversity	CodeCode Available	7
Enhancement of Bengali OCR by Specialized Models and Advanced Techniques for Diverse Document Types	Feb 7, 2024	Optical Character Recognition (OCR)Table Recognition	—Unverified	0
ExTTNet: A Deep Learning Algorithm for Extracting Table Texts from Invoice Images	Feb 3, 2024	Optical Character RecognitionOptical Character Recognition (OCR)	—Unverified	0
From Training-Free to Adaptive: Empirical Insights into MLLMs' Understanding of Detection Information	Jan 31, 2024	Hallucinationobject-detection	—Unverified	0
MouSi: Poly-Visual-Expert Vision-Language Models	Jan 30, 2024	Image SegmentationImage-text matching	CodeCode Available	2

Show:10 25 50

← PrevPage 14 of 49Next →

All datasets Benchmarking Chinese Text Recognition: Datasets, Baselines, and an Empirical Study VideoDB's OCR Benchmark Public Collection FSNS - Test I2L-140K SUT im2latex-100k

Benchmark Results

#	Model	Metric	Claimed	Verified	Status
1	DTrOCR	Accuracy (%)	89.6	—	Unverified
2	DTrOCR 105M	Accuracy (%)	89.6	—	Unverified
3	MaskOCR-L	Accuracy (%)	82.6	—	Unverified
4	TransOCR	Accuracy (%)	72.8	—	Unverified
5	SRN	Accuracy (%)	65	—	Unverified
6	MORAN	Accuracy (%)	64.3	—	Unverified
7	SEED	Accuracy (%)	61.2	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	GPT-4o	Average Accuracy	76.22	—	Unverified
2	Gemini-1.5 Pro	Average Accuracy	76.13	—	Unverified
3	Claude-3 Sonnet	Average Accuracy	67.71	—	Unverified
4	RapidOCR	Average Accuracy	56.98	—	Unverified
5	EasyOCR	Average Accuracy	49.3	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	STREET	Sequence error	27.54	—	Unverified
2	SEE	Sequence error	22	—	Unverified
3	AttentionOCR_Inception-resnet-v2_Location	Sequence error	15.8	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	I2L-NOPOOL	BLEU	89.09	—	Unverified
2	I2L-STRIPS	BLEU	89	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	Tesseract	Character Error Rate (CER)	0.08	—	Unverified
2	EasyOCR	Character Error Rate (CER)	0.07	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	I2L-STRIPS	BLEU	88.86	—	Unverified