Optical Character Recognition (OCR)

Optical Character Recognition or Optical Character Reader (OCR) is the electronic or mechanical conversion of images of typed, handwritten or printed text into machine-encoded text, whether from a scanned document, a photo of a document, a scene-photo (for example the text on signs and billboards in a landscape photo, license plates in cars...) or from subtitle text superimposed on an image (for example: from a television broadcast)

Papers

Recently Added Most Hyped Most Active Needs Verification Most Verified

Showing 451–500 of 1209 papers

Title	Date	Tasks	Status
Extraction of Line Word Character Segments Directly from Run Length Compressed Printed Text Documents	Mar 30, 2014	Optical Character RecognitionOptical Character Recognition (OCR)	—Unverified
ExTTNet: A Deep Learning Algorithm for Extracting Table Texts from Invoice Images	Feb 3, 2024	Optical Character RecognitionOptical Character Recognition (OCR)	—Unverified
Eyes Closed, Safety On: Protecting Multimodal LLMs via Image-to-Text Transformation	Mar 14, 2024	Image to textOptical Character Recognition (OCR)	—Unverified
ChartEye: A Deep Learning Framework for Chart Information Extraction	Aug 28, 2024	Chart UnderstandingClassification	—Unverified
Digitizing 18th-Century French Literature: Comparing transcription methods for a critical edition text	Jun 1, 2012	Machine TranslationOptical Character Recognition (OCR)	—Unverified
Fast Search with Poor OCR	Sep 17, 2019	Optical Character RecognitionOptical Character Recognition (OCR)	—Unverified
ChartParser: Automatic Chart Parsing for Print-Impaired	Nov 16, 2022	Optical Character Recognition (OCR)	—Unverified
@Bench: Benchmarking Vision-Language Models for Human-centered Assistive Technology	Sep 21, 2024	BenchmarkingDepth Estimation	—Unverified
Fetch-A-Set: A Large-Scale OCR-Free Benchmark for Historical Document Retrieval	Jun 11, 2024	Image RetrievalImage to text	—Unverified
DEXTER: An end-to-end system to extract table contents from electronic medical health documents	Jul 14, 2022	Cell DetectionOptical Character Recognition (OCR)	—Unverified
An End-to-End OCR Framework for Robust Arabic-Handwriting Recognition using a Novel Transformers-based Model and an Innovative 270 Million-Words Multi-Font Corpus of Classical Arabic with Diacritics	Aug 20, 2022	DecoderHandwriting Recognition	—Unverified
Finding Names in Trove: Named Entity Recognition for Australian Historical Newspapers	Dec 1, 2015	Clusteringnamed-entity-recognition	—Unverified
Advancing Visual Specification of Code Requirements for Graphs	Jul 29, 2020	Optical Character RecognitionOptical Character Recognition (OCR)	—Unverified
DEVICE: DEpth and VIsual ConcEpts Aware Transformer for TextCaps	Feb 3, 2023	Image CaptioningOptical Character Recognition (OCR)	—Unverified
Chaurah: A Smart Raspberry Pi based Parking System	Dec 28, 2023	Optical Character RecognitionOptical Character Recognition (OCR)	—Unverified
FLELex: a graded lexical resource for French foreign learners	May 1, 2014	Language AcquisitionOptical Character Recognition (OCR)	—Unverified
Development of a WAZOBIA-Named Entity Recognition System	May 10, 2025	Machine Translationnamed-entity-recognition	—Unverified
BART for Post-Correction of OCR Newspaper Text	Nov 1, 2021	Language ModelingLanguage Modelling	—Unverified
Development of a New Image-to-text Conversion System for Pashto, Farsi and Traditional Chinese	May 8, 2020	Image to textOptical Character Recognition (OCR)	—Unverified
Detection of Text Reuse in French Medical Corpora	Dec 1, 2016	De-identificationOptical Character Recognition (OCR)	—Unverified
Font Identification in Historical Documents Using Active Learning	Jan 27, 2016	Active LearningDiversity	—Unverified
Fooling OCR Systems with Adversarial Text Images	Feb 15, 2018	Adversarial TextOptical Character Recognition	—Unverified
FormGym: Doing Paperwork with Agents	Jun 17, 2025	FormInformation Retrieval	—Unverified
Fraunhofer SIT at CheckThat! 2023: Mixing Single-Modal Classifiers to Estimate the Check-Worthiness of Multi-Modal Tweets	Jul 2, 2023	Fact CheckingOptical Character Recognition (OCR)	—Unverified
Bangla Text Recognition from Video Sequence: A New Focus	Jan 6, 2014	BinarizationOptical Character Recognition (OCR)	—Unverified
From Machine Learning to Machine Reasoning	Feb 9, 2011	BIG-bench Machine LearningLanguage Modeling	—Unverified
An End-to-End Khmer Optical Character Recognition using Sequence-to-Sequence with Attention	Jun 21, 2021	DecoderOptical Character Recognition	—Unverified
An Ensemble of Neural Networks for Non-Linear Segmentation of Overlapped Cursive Script	Apr 7, 2019	Optical Character RecognitionOptical Character Recognition (OCR)	—Unverified
Detection Masking for Improved OCR on Noisy Documents	May 17, 2022	Optical Character RecognitionOptical Character Recognition (OCR)	—Unverified
Chunk-based Chinese Spelling Check with Global Optimization	Nov 1, 2020	global-optimizationOptical Character Recognition	—Unverified
Bangla Natural Language Processing: A Comprehensive Analysis of Classical, Machine Learning, and Deep Learning Based Methods	May 31, 2021	ArticlesBIG-bench Machine Learning	—Unverified
D\'etection d'erreurs dans des transcriptions OCR de documents historiques par r\'eseaux de neurones r\'ecurrents multi-niveau (Combining character level and word level RNNs for post-OCR error detection)	May 1, 2018	Optical Character Recognition (OCR)	—Unverified
Bambara and Maninka Manding Languages Written Corpora Project (``Projet des corpus \'ecrits des langues manding : le bambara, le maninka'') [in French]	Jul 1, 2014	Optical Character Recognition (OCR)	—Unverified
Detecting de minimis Code-Switching in Historical German Books	Dec 1, 2020	Optical Character RecognitionOptical Character Recognition (OCR)	—Unverified
Classification of Documents Extracted from Images with Optical Character Recognition Methods	Jun 15, 2021	BIG-bench Machine LearningOptical Character Recognition	—Unverified
Design and Implementation of an OCR-Powered Pipeline for Table Extraction from Invoices	Jul 9, 2025	Boundary DetectionOptical Character Recognition (OCR)	—Unverified
Generalization or Hallucination? Understanding Out-of-Context Reasoning in Transformers	Jun 12, 2025	HallucinationOptical Character Recognition (OCR)	—Unverified
Generalizing Analytic Shrinkage for Arbitrary Covariance Structures	Dec 1, 2013	Optical Character RecognitionOptical Character Recognition (OCR)	—Unverified
Balanced Korean Word Spacing with Structural SVM	Oct 1, 2014	Information RetrievalMorphological Analysis	—Unverified
Post-OCR Paragraph Recognition by Graph Convolutional Networks	Jan 29, 2021	ClusteringOptical Character Recognition (OCR)	—Unverified
Generating a Training Corpus for OCR Post-Correction Using Encoder-Decoder Model	Nov 1, 2017	DecoderLanguage Modeling	—Unverified
Generating Monolingual Dataset for Low Resource Language Bodo from old books using Google Keep	Jun 1, 2022	Optical Character Recognition (OCR)	—Unverified
Design and Development of a Framework For Stroke-Based Handwritten Gujarati Font Generation	Apr 4, 2024	Font GenerationOptical Character Recognition (OCR)	—Unverified
Derivate-based Component-Trees for Multi-Channel Image Segmentation	May 4, 2017	Image SegmentationOptical Character Recognition (OCR)	—Unverified
Advancing Vehicle Plate Recognition: Multitasking Visual Language Models with VehiclePaliGemma	Dec 14, 2024	GPULicense Plate Recognition	—Unverified
Hierarchical Visual Feature Aggregation for OCR-Free Document Understanding	Nov 8, 2024	document understandingOptical Character Recognition (OCR)	—Unverified
Geometric Rectification of Creased Document Images based on Isometric Mapping	Dec 16, 2022	Optical Character RecognitionOptical Character Recognition (OCR)	—Unverified
Delta vs. N-Gram Tracing: Evaluating the Robustness of Authorship Attribution Methods	May 1, 2018	Authorship AttributionOptical Character Recognition (OCR)	—Unverified
Harnessing PDF Data for Improving Japanese Large Multimodal Models	Feb 20, 2025	Optical Character Recognition (OCR)	—Unverified
Auto-ML Deep Learning for Rashi Scripts OCR	Nov 3, 2018	AutoMLDeep Learning	—Unverified

Show:10 25 50

← PrevPage 10 of 25Next →

All datasets Benchmarking Chinese Text Recognition: Datasets, Baselines, and an Empirical Study VideoDB's OCR Benchmark Public Collection FSNS - Test I2L-140K SUT im2latex-100k

Benchmark Results

#	Model	Metric	Claimed	Verified	Status
1	DTrOCR	Accuracy (%)	89.6	—	Unverified
2	DTrOCR 105M	Accuracy (%)	89.6	—	Unverified
3	MaskOCR-L	Accuracy (%)	82.6	—	Unverified
4	TransOCR	Accuracy (%)	72.8	—	Unverified
5	SRN	Accuracy (%)	65	—	Unverified
6	MORAN	Accuracy (%)	64.3	—	Unverified
7	SEED	Accuracy (%)	61.2	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	GPT-4o	Average Accuracy	76.22	—	Unverified
2	Gemini-1.5 Pro	Average Accuracy	76.13	—	Unverified
3	Claude-3 Sonnet	Average Accuracy	67.71	—	Unverified
4	RapidOCR	Average Accuracy	56.98	—	Unverified
5	EasyOCR	Average Accuracy	49.3	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	STREET	Sequence error	27.54	—	Unverified
2	SEE	Sequence error	22	—	Unverified
3	AttentionOCR_Inception-resnet-v2_Location	Sequence error	15.8	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	I2L-NOPOOL	BLEU	89.09	—	Unverified
2	I2L-STRIPS	BLEU	89	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	Tesseract	Character Error Rate (CER)	0.08	—	Unverified
2	EasyOCR	Character Error Rate (CER)	0.07	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	I2L-STRIPS	BLEU	88.86	—	Unverified