Optical Character Recognition (OCR)

Optical Character Recognition or Optical Character Reader (OCR) is the electronic or mechanical conversion of images of typed, handwritten or printed text into machine-encoded text, whether from a scanned document, a photo of a document, a scene-photo (for example the text on signs and billboards in a landscape photo, license plates in cars...) or from subtitle text superimposed on an image (for example: from a television broadcast)

Papers

Recently Added Most Hyped Most Active Needs Verification Most Verified

Showing 301–325 of 1209 papers

Title	Date	Tasks	Status	Hype
ViTextVQA: A Large-Scale Visual Question Answering Dataset for Evaluating Vietnamese Text Comprehension in Images	Apr 16, 2024	Multimodal Deep LearningOptical Character Recognition (OCR)	CodeCode Available	0
MathWriting: A Dataset For Handwritten Mathematical Expression Recognition	Apr 16, 2024	FormOptical Character Recognition (OCR)	—Unverified	0
Resilience of Large Language Models for Noisy Instructions	Apr 15, 2024	Automatic Speech RecognitionOptical Character Recognition	—Unverified	0
Convolution-based Probability Gradient Loss for Semantic Segmentation	Apr 10, 2024	Optical Character Recognition (OCR)Semantic Segmentation	CodeCode Available	0
Making Old Kurdish Publications Processable by Augmenting Available Optical Character Recognition Engines	Apr 9, 2024	Optical Character RecognitionOptical Character Recognition (OCR)	—Unverified	0
VisualWebBench: How Far Have Multimodal LLMs Evolved in Web Page Understanding and Grounding?	Apr 9, 2024	Optical Character Recognition (OCR)	CodeCode Available	2
NAF-DPM: A Nonlinear Activation-Free Diffusion Probabilistic Model for Document Enhancement	Apr 8, 2024	BinarizationDocument Enhancement	CodeCode Available	2
HAMMR: HierArchical MultiModal React agents for generic VQA	Apr 8, 2024	Optical Character Recognition (OCR)Question Answering	—Unverified	0
Design and Development of a Framework For Stroke-Based Handwritten Gujarati Font Generation	Apr 4, 2024	Font GenerationOptical Character Recognition (OCR)	—Unverified	0
CMULAB: An Open-Source Framework for Training and Deployment of Natural Language Processing Models	Apr 3, 2024	Optical Character Recognition (OCR)speech-recognition	CodeCode Available	1
Optical Text Recognition in Nepali and Bengali: A Transformer-based Approach	Apr 3, 2024	DecoderMachine Translation	—Unverified	0
Draw-and-Understand: Leveraging Visual Prompts to Enable MLLMs to Comprehend What You Want	Mar 29, 2024	Instruction FollowingLanguage Modelling	CodeCode Available	2
RealKIE: Five Novel Datasets for Enterprise Key Information Extraction	Mar 29, 2024	Key Information ExtractionOptical Character Recognition (OCR)	—Unverified	0
ChroniclingAmericaQA: A Large-scale Question Answering Dataset based on Historical American Newspaper Pages	Mar 26, 2024	Machine Reading ComprehensionOptical Character Recognition (OCR)	CodeCode Available	1
SciCapenter: Supporting Caption Composition for Scientific Figures with Machine-Generated Captions and Ratings	Mar 26, 2024	Optical Character Recognition (OCR)	—Unverified	0
The Solution for the ICCV 2023 1st Scientific Figure Captioning Challenge	Mar 26, 2024	Caption GenerationImage Captioning	—Unverified	0
Visually Guided Generative Text-Layout Pre-training for Document Intelligence	Mar 25, 2024	Document Classificationdocument understanding	CodeCode Available	2
Grammatical vs Spelling Error Correction: An Investigation into the Responsiveness of Transformer-based Language Models using BART and MarianMT	Mar 25, 2024	Optical Character Recognition (OCR)speech-recognition	—Unverified	0
Refining Text-to-Image Generation: Towards Accurate Training-Free Glyph-Enhanced Image Generation	Mar 25, 2024	Image GenerationOptical Character Recognition (OCR)	—Unverified	0
PEaCE: A Chemistry-Oriented Dataset for Optical Character Recognition on Scientific Documents	Mar 23, 2024	ArticlesOptical Character Recognition	CodeCode Available	1
Chart-based Reasoning: Transferring Capabilities from LLMs to VLMs	Mar 19, 2024	Chart Question AnsweringOptical Character Recognition (OCR)	—Unverified	0
mPLUG-DocOwl 1.5: Unified Structure Learning for OCR-free Document Understanding	Mar 19, 2024	document understandingOptical Character Recognition (OCR)	—Unverified	0
Financial Table Extraction in Image Documents	Mar 18, 2024	Image SegmentationOptical Character Recognition (OCR)	—Unverified	0
Advancing Multilingual Handwritten Numeral Recognition with Attention-driven Transfer Learning	Mar 18, 2024	Handwritten Digit RecognitionOptical Character Recognition	CodeCode Available	0
OCR is All you need: Importing Multi-Modality into Image-based Defect Detection System	Mar 18, 2024	AllDecision Making	—Unverified	0

Show:10 25 50

← PrevPage 13 of 49Next →

All datasets Benchmarking Chinese Text Recognition: Datasets, Baselines, and an Empirical Study VideoDB's OCR Benchmark Public Collection FSNS - Test I2L-140K SUT im2latex-100k

Benchmark Results

#	Model	Metric	Claimed	Verified	Status
1	DTrOCR	Accuracy (%)	89.6	—	Unverified
2	DTrOCR 105M	Accuracy (%)	89.6	—	Unverified
3	MaskOCR-L	Accuracy (%)	82.6	—	Unverified
4	TransOCR	Accuracy (%)	72.8	—	Unverified
5	SRN	Accuracy (%)	65	—	Unverified
6	MORAN	Accuracy (%)	64.3	—	Unverified
7	SEED	Accuracy (%)	61.2	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	GPT-4o	Average Accuracy	76.22	—	Unverified
2	Gemini-1.5 Pro	Average Accuracy	76.13	—	Unverified
3	Claude-3 Sonnet	Average Accuracy	67.71	—	Unverified
4	RapidOCR	Average Accuracy	56.98	—	Unverified
5	EasyOCR	Average Accuracy	49.3	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	STREET	Sequence error	27.54	—	Unverified
2	SEE	Sequence error	22	—	Unverified
3	AttentionOCR_Inception-resnet-v2_Location	Sequence error	15.8	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	I2L-NOPOOL	BLEU	89.09	—	Unverified
2	I2L-STRIPS	BLEU	89	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	Tesseract	Character Error Rate (CER)	0.08	—	Unverified
2	EasyOCR	Character Error Rate (CER)	0.07	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	I2L-STRIPS	BLEU	88.86	—	Unverified