Optical Character Recognition (OCR)

Optical Character Recognition or Optical Character Reader (OCR) is the electronic or mechanical conversion of images of typed, handwritten or printed text into machine-encoded text, whether from a scanned document, a photo of a document, a scene-photo (for example the text on signs and billboards in a landscape photo, license plates in cars...) or from subtitle text superimposed on an image (for example: from a television broadcast)

Papers

Recently Added Most Hyped Most Active Needs Verification Most Verified

Showing 201–250 of 1209 papers

Title	Date	Tasks	Status	Hype
Hespi: A pipeline for automatically detecting information from hebarium specimen sheets	Oct 11, 2024	Handwritten Text RecognitionHTR	CodeCode Available	1
Automated Quality Control System for Canned Tuna Production using Artificial Vision	Oct 8, 2024	GPUOptical Character Recognition (OCR)	—Unverified	0
Mero Nagarikta: Advanced Nepali Citizenship Data Extractor with Deep Learning-Powered Text Detection and OCR	Oct 8, 2024	object-detectionObject Detection	—Unverified	0
TextHawk2: A Large Vision-Language Model Excels in Bilingual OCR and Grounding with 16x Fewer Tokens	Oct 7, 2024	Language ModelingLanguage Modelling	CodeCode Available	2
Transformers Utilization in Chart Understanding: A Review of Recent Advances & Future Trends	Oct 5, 2024	BenchmarkingChart Understanding	—Unverified	0
Khattat: Enhancing Readability and Concept Representation of Semantic Typography	Oct 1, 2024	Language ModelingLanguage Modelling	—Unverified	0
MM1.5: Methods, Analysis & Insights from Multimodal LLM Fine-tuning	Sep 30, 2024	Mixture-of-ExpertsOptical Character Recognition (OCR)	—Unverified	0
JaPOC: Japanese Post-OCR Correction Benchmark using Vouchers	Sep 30, 2024	Optical Character RecognitionOptical Character Recognition (OCR)	—Unverified	0
World to Code: Multi-modal Data Generation via Self-Instructed Compositional Captioning and Filtering	Sep 30, 2024	Optical Character Recognition (OCR)Question Answering	CodeCode Available	0
Scrambled text: training Language Models to correct OCR errors using synthetic data	Sep 29, 2024	ArticlesLanguage Modeling	CodeCode Available	0
See then Tell: Enhancing Key Information Extraction with Vision Grounding	Sep 29, 2024	Image to textKey Information Extraction	—Unverified	0
CodeSCAN: ScreenCast ANalysis for Video Programming Tutorials	Sep 27, 2024	Optical Character RecognitionOptical Character Recognition (OCR)	—Unverified	0
MinerU: An Open-Source Solution for Precise Document Content Extraction	Sep 27, 2024	DiversityOptical Character Recognition (OCR)	CodeCode Available	16
JoyType: A Robust Design for Multilingual Visual Text Creation	Sep 26, 2024	Image GenerationOptical Character Recognition (OCR)	—Unverified	0
General Detection-based Text Line Recognition	Sep 25, 2024	HTROptical Character Recognition (OCR)	CodeCode Available	2
MaViLS, a Benchmark Dataset for Video-to-Slide Alignment, Assessing Baseline Accuracy with a Multimodal Alignment Algorithm Leveraging Speech, OCR, and Visual Features	Sep 25, 2024	Optical Character RecognitionOptical Character Recognition (OCR)	CodeCode Available	0
Investigating OCR-Sensitive Neurons to Improve Entity Recognition in Historical Documents	Sep 25, 2024	named-entity-recognitionNamed Entity Recognition	CodeCode Available	0
@Bench: Benchmarking Vision-Language Models for Human-centered Assistive Technology	Sep 21, 2024	BenchmarkingDepth Estimation	—Unverified	0
One Model is All You Need: ByT5-Sanskrit, a Unified Model for Sanskrit NLP Tasks	Sep 20, 2024	AllDependency Parsing	CodeCode Available	1
NVLM: Open Frontier-Class Multimodal LLMs	Sep 17, 2024	MathMultimodal Reasoning	—Unverified	0
Computer Vision Intelligence Test Modeling and Generation: A Case Study on Smart OCR	Sep 14, 2024	3D ClassificationOptical Character Recognition	—Unverified	0
PdfTable: A Unified Toolkit for Deep Learning-Based Table Extraction	Sep 8, 2024	Deep LearningDocument Layout Analysis	—Unverified	0
UNIT: Unifying Image and Text Recognition in One Vision Encoder	Sep 6, 2024	DecoderOptical Character Recognition (OCR)	—Unverified	0
Confidence-Aware Document OCR Error Detection	Sep 6, 2024	Optical Character RecognitionOptical Character Recognition (OCR)	—Unverified	0
mPLUG-DocOwl2: High-resolution Compressing for OCR-free Multi-page Document Understanding	Sep 5, 2024	document understandingGPU	—Unverified	0
MMMU-Pro: A More Robust Multi-discipline Multimodal Understanding Benchmark	Sep 4, 2024	Optical Character Recognition (OCR)	CodeCode Available	4
General OCR Theory: Towards OCR-2.0 via a Unified End-to-end Model	Sep 3, 2024	DecoderMath	CodeCode Available	9
Post-OCR Text Correction for Bulgarian Historical Documents	Aug 31, 2024	Optical Character RecognitionOptical Character Recognition (OCR)	CodeCode Available	0
CLOCR-C: Context Leveraging OCR Correction with Pre-trained Language Models	Aug 30, 2024	Articlesnamed-entity-recognition	CodeCode Available	0
ChartEye: A Deep Learning Framework for Chart Information Extraction	Aug 28, 2024	Chart UnderstandingClassification	—Unverified	0
Can Visual Language Models Replace OCR-Based Visual Question Answering Pipelines in Production? A Case Study in Retail	Aug 28, 2024	Optical Character RecognitionOptical Character Recognition (OCR)	—Unverified	0
DocLayLLM: An Efficient and Effective Multi-modal Extension of Large Language Models for Text-rich Document Understanding	Aug 27, 2024	document understandingOptical Character Recognition (OCR)	CodeCode Available	1
Platypus: A Generalized Specialist Model for Reading Text in Various Forms	Aug 27, 2024	Handwritten Text RecognitionOptical Character Recognition (OCR)	—Unverified	0
FastTextSpotter: A High-Efficiency Transformer for Multilingual Scene Text Spotting	Aug 27, 2024	BenchmarkingDecoder	CodeCode Available	0
A Permuted Autoregressive Approach to Word-Level Recognition for Urdu Digital Text	Aug 27, 2024	Data AugmentationOptical Character Recognition	—Unverified	0
Knowledge Discovery in Optical Music Recognition: Enhancing Information Retrieval with Instance Segmentation	Aug 27, 2024	Information RetrievalInstance Segmentation	—Unverified	0
Enhancing License Plate Super-Resolution: A Layout-Aware and Character-Driven Approach	Aug 27, 2024	License Plate RecognitionOptical Character Recognition	CodeCode Available	1
MMR: Evaluating Reading Ability of Large Multimodal Models	Aug 26, 2024	Font RecognitionMMR total	—Unverified	0
Ancient but Digitized: Developing Handwritten Optical Character Recognition for East Syriac Script Through Creating KHAMIS Dataset	Aug 24, 2024	Optical Character RecognitionOptical Character Recognition (OCR)	—Unverified	0
Vintern-1B: An Efficient Multimodal Large Language Model for Vietnamese	Aug 22, 2024	Language ModelingLanguage Modelling	—Unverified	0
Large Language Models for Page Stream Segmentation	Aug 21, 2024	DecoderOptical Character Recognition	—Unverified	0
ChemVLM: Exploring the Power of Multimodal Large Language Models in Chemistry Area	Aug 14, 2024	Language ModelingLanguage Modelling	CodeCode Available	2
SWIFT:A Scalable lightWeight Infrastructure for Fine-Tuning	Aug 10, 2024	HallucinationOptical Character Recognition	CodeCode Available	11
Handwritten Code Recognition for Pen-and-Paper CS Education	Aug 7, 2024	HallucinationLanguage Modeling	CodeCode Available	0
Advancing Post-OCR Correction: A Comparative Study of Synthetic Data	Aug 5, 2024	Optical Character Recognition (OCR)Synthetic Data Generation	CodeCode Available	0
MiniCPM-V: A GPT-4V Level MLLM on Your Phone	Aug 3, 2024	HallucinationMultiple-choice	CodeCode Available	12
Focus, Distinguish, and Prompt: Unleashing CLIP for Efficient and Flexible Scene Text Retrieval	Aug 1, 2024	AttributeOptical Character Recognition	CodeCode Available	1
MM-Vet v2: A Challenging Benchmark to Evaluate Large Multimodal Models for Integrated Capabilities	Aug 1, 2024	MathMM-Vet	CodeCode Available	3
PIXELMOD: Improving Soft Moderation of Visual Misleading Information on Twitter	Jul 30, 2024	MisinformationOptical Character Recognition	CodeCode Available	0
Image-text matching for large-scale book collections	Jul 29, 2024	Image-text matchingOptical Character Recognition (OCR)	CodeCode Available	1

Show:10 25 50

← PrevPage 5 of 25Next →

All datasets Benchmarking Chinese Text Recognition: Datasets, Baselines, and an Empirical Study VideoDB's OCR Benchmark Public Collection FSNS - Test I2L-140K SUT im2latex-100k

Benchmark Results

#	Model	Metric	Claimed	Verified	Status
1	DTrOCR	Accuracy (%)	89.6	—	Unverified
2	DTrOCR 105M	Accuracy (%)	89.6	—	Unverified
3	MaskOCR-L	Accuracy (%)	82.6	—	Unverified
4	TransOCR	Accuracy (%)	72.8	—	Unverified
5	SRN	Accuracy (%)	65	—	Unverified
6	MORAN	Accuracy (%)	64.3	—	Unverified
7	SEED	Accuracy (%)	61.2	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	GPT-4o	Average Accuracy	76.22	—	Unverified
2	Gemini-1.5 Pro	Average Accuracy	76.13	—	Unverified
3	Claude-3 Sonnet	Average Accuracy	67.71	—	Unverified
4	RapidOCR	Average Accuracy	56.98	—	Unverified
5	EasyOCR	Average Accuracy	49.3	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	STREET	Sequence error	27.54	—	Unverified
2	SEE	Sequence error	22	—	Unverified
3	AttentionOCR_Inception-resnet-v2_Location	Sequence error	15.8	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	I2L-NOPOOL	BLEU	89.09	—	Unverified
2	I2L-STRIPS	BLEU	89	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	Tesseract	Character Error Rate (CER)	0.08	—	Unverified
2	EasyOCR	Character Error Rate (CER)	0.07	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	I2L-STRIPS	BLEU	88.86	—	Unverified