Optical Character Recognition (OCR)

Optical Character Recognition or Optical Character Reader (OCR) is the electronic or mechanical conversion of images of typed, handwritten or printed text into machine-encoded text, whether from a scanned document, a photo of a document, a scene-photo (for example the text on signs and billboards in a landscape photo, license plates in cars...) or from subtitle text superimposed on an image (for example: from a television broadcast)

Papers

Recently Added Most Hyped Most Active Needs Verification Most Verified

Showing 401–425 of 1209 papers

Title	Date	Tasks	Status
Efficient few-shot learning for pixel-precise handwritten document layout analysis	Oct 27, 2022	Document Layout AnalysisFew-Shot Learning	—Unverified
Efficient, Lexicon-Free OCR using Deep Learning	Jun 5, 2019	Data AugmentationDeep Learning	—Unverified
A Novel Pipeline for Improving Optical Character Recognition through Post-processing Using Natural Language Processing	Jul 9, 2023	Optical Character RecognitionOptical Character Recognition (OCR)	—Unverified
Efficient Media Retrieval from Non-Cooperative Queries	Nov 19, 2014	Optical Character Recognition (OCR)Retrieval	—Unverified
BART for Post-Correction of OCR Newspaper Text	Nov 1, 2021	Language ModelingLanguage Modelling	—Unverified
Building OCR/NER Test Collections	May 1, 2020	named-entity-recognitionNamed Entity Recognition	—Unverified
Development of a New Image-to-text Conversion System for Pashto, Farsi and Traditional Chinese	May 8, 2020	Image to textOptical Character Recognition (OCR)	—Unverified
Detection of Text Reuse in French Medical Corpora	Dec 1, 2016	De-identificationOptical Character Recognition (OCR)	—Unverified
Bangla Text Recognition from Video Sequence: A New Focus	Jan 6, 2014	BinarizationOptical Character Recognition (OCR)	—Unverified
A Novel Transfer Learning Approach upon Hindi, Arabic, and Bangla Numerals using Convolutional Neural Networks	Jul 26, 2017	Optical Character RecognitionOptical Character Recognition (OCR)	—Unverified
Embedding Similarity Guided License Plate Super Resolution	Jan 2, 2025	License Plate RecognitionOptical Character Recognition	—Unverified
A Hybrid Swarm and Gravitation based feature selection algorithm for Handwritten Indic Script Classification problem	May 10, 2020	Classificationfeature selection	—Unverified
Endangered Data for Endangered Languages: Digitizing Print dictionaries	Mar 1, 2017	Optical Character Recognition (OCR)	—Unverified
An End-to-End Khmer Optical Character Recognition using Sequence-to-Sequence with Attention	Jun 21, 2021	DecoderOptical Character Recognition	—Unverified
An Ensemble of Neural Networks for Non-Linear Segmentation of Overlapped Cursive Script	Apr 7, 2019	Optical Character RecognitionOptical Character Recognition (OCR)	—Unverified
Fetch-A-Set: A Large-Scale OCR-Free Benchmark for Historical Document Retrieval	Jun 11, 2024	Image RetrievalImage to text	—Unverified
CalliReader: Contextualizing Chinese Calligraphy via an Embedding-Aligned Vision-Language Model	Mar 9, 2025	HallucinationLanguage Modeling	—Unverified
End-to-End Piece-Wise Unwarping of Document Images	Jan 1, 2021	MS-SSIMOptical Character Recognition (OCR)	—Unverified
Detection Masking for Improved OCR on Noisy Documents	May 17, 2022	Optical Character RecognitionOptical Character Recognition (OCR)	—Unverified
Engineering RAG Systems for Real-World Applications: Design, Development, and Evaluation	Jun 25, 2025	Optical Character Recognition (OCR)RAG	—Unverified
Enhancement of Bengali OCR by Specialized Models and Advanced Techniques for Diverse Document Types	Feb 7, 2024	Optical Character Recognition (OCR)Table Recognition	—Unverified
Enhancement of text recognition for hanja handwritten documents of Ancient Korea	Dec 14, 2024	Data Augmentationobject-detection	—Unverified
Bangla Natural Language Processing: A Comprehensive Analysis of Classical, Machine Learning, and Deep Learning Based Methods	May 31, 2021	ArticlesBIG-bench Machine Learning	—Unverified
D\'etection d'erreurs dans des transcriptions OCR de documents historiques par r\'eseaux de neurones r\'ecurrents multi-niveau (Combining character level and word level RNNs for post-OCR error detection)	May 1, 2018	Optical Character Recognition (OCR)	—Unverified
Bambara and Maninka Manding Languages Written Corpora Project (``Projet des corpus \'ecrits des langues manding : le bambara, le maninka'') [in French]	Jul 1, 2014	Optical Character Recognition (OCR)	—Unverified

Show:10 25 50

← PrevPage 17 of 49Next →

All datasets Benchmarking Chinese Text Recognition: Datasets, Baselines, and an Empirical Study VideoDB's OCR Benchmark Public Collection FSNS - Test I2L-140K SUT im2latex-100k

Benchmark Results

#	Model	Metric	Claimed	Verified	Status
1	DTrOCR	Accuracy (%)	89.6	—	Unverified
2	DTrOCR 105M	Accuracy (%)	89.6	—	Unverified
3	MaskOCR-L	Accuracy (%)	82.6	—	Unverified
4	TransOCR	Accuracy (%)	72.8	—	Unverified
5	SRN	Accuracy (%)	65	—	Unverified
6	MORAN	Accuracy (%)	64.3	—	Unverified
7	SEED	Accuracy (%)	61.2	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	GPT-4o	Average Accuracy	76.22	—	Unverified
2	Gemini-1.5 Pro	Average Accuracy	76.13	—	Unverified
3	Claude-3 Sonnet	Average Accuracy	67.71	—	Unverified
4	RapidOCR	Average Accuracy	56.98	—	Unverified
5	EasyOCR	Average Accuracy	49.3	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	STREET	Sequence error	27.54	—	Unverified
2	SEE	Sequence error	22	—	Unverified
3	AttentionOCR_Inception-resnet-v2_Location	Sequence error	15.8	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	I2L-NOPOOL	BLEU	89.09	—	Unverified
2	I2L-STRIPS	BLEU	89	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	Tesseract	Character Error Rate (CER)	0.08	—	Unverified
2	EasyOCR	Character Error Rate (CER)	0.07	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	I2L-STRIPS	BLEU	88.86	—	Unverified