Optical Character Recognition (OCR)

Optical Character Recognition or Optical Character Reader (OCR) is the electronic or mechanical conversion of images of typed, handwritten or printed text into machine-encoded text, whether from a scanned document, a photo of a document, a scene-photo (for example the text on signs and billboards in a landscape photo, license plates in cars...) or from subtitle text superimposed on an image (for example: from a television broadcast)

Papers

Recently Added Most Hyped Most Active Needs Verification Most Verified

Showing 651–700 of 1209 papers

Title	Date	Tasks	Status
Dynamic Low-Resolution Distillation for Cost-Efficient End-to-End Text Spotting	Jul 14, 2022	global-optimizationKnowledge Distillation	—Unverified
DEXTER: An end-to-end system to extract table contents from electronic medical health documents	Jul 14, 2022	Cell DetectionOptical Character Recognition (OCR)	—Unverified
GMN: Generative Multi-modal Network for Practical Document Information Extraction	Jul 11, 2022	Optical Character Recognition (OCR)	—Unverified
Towards Multimodal Vision-Language Models Generating Non-Generic Text	Jul 9, 2022	DescriptiveOptical Character Recognition	—Unverified
BusiNet -- a Light and Fast Text Detection Network for Business Documents	Jul 4, 2022	Optical Character RecognitionOptical Character Recognition (OCR)	—Unverified
Sequence-aware multimodal page classification of Brazilian legal documents	Jul 2, 2022	ClassificationManagement	CodeCode Available
Challenging America: Modeling language in longer time scales	Jul 1, 2022	Cloze TestOptical Character Recognition (OCR)	—Unverified
Multistep Automated Data Labelling Procedure (MADLaP) for Thyroid Nodules on Ultrasound: An Artificial Intelligence Approach for Automating Image Annotation	Jun 28, 2022	Optical Character RecognitionOptical Character Recognition (OCR)	—Unverified
iExam: A Novel Online Exam Monitoring and Analysis System Based on Face Detection and Recognition	Jun 27, 2022	Face DetectionFace Recognition	CodeCode Available
Broken News: Making Newspapers Accessible to Print-Impaired	Jun 21, 2022	Instance SegmentationOptical Character Recognition (OCR)	—Unverified
Towards Optimizing OCR for Accessibility	Jun 21, 2022	Optical Character Recognition (OCR)text-to-speech	—Unverified
RDU: A Region-based Approach to Form-style Document Understanding	Jun 14, 2022	document understandingForm	—Unverified
An Evaluation of OCR on Egocentric Data	Jun 11, 2022	Optical Character Recognition (OCR)	CodeCode Available
Transformer based Urdu Handwritten Text Optical Character Reader	Jun 9, 2022	Natural Language UnderstandingOptical Character Recognition (OCR)	—Unverified
PP-OCRv3: More Attempts for the Improvement of Ultra Lightweight OCR System	Jun 7, 2022	Data AugmentationOptical Character Recognition	—Unverified
Contrastive Graph Multimodal Model for Text Classification in Videos	Jun 6, 2022	ClassificationContrastive Learning	—Unverified
Two Decades of Bengali Handwritten Digit Recognition: A Survey	Jun 5, 2022	Handwritten Digit RecognitionOptical Character Recognition	—Unverified
Introducing One Sided Margin Loss for Solving Classification Problems in Deep Networks	Jun 2, 2022	ClassificationOptical Character Recognition	—Unverified
A Language Modelling Approach to Quality Assessment of OCR’ed Historical Text	Jun 1, 2022	Language ModelingLanguage Modelling	—Unverified
MaskOCR: Text Recognition with Masked Encoder-Decoder Pretraining	Jun 1, 2022	DecoderLanguage Modeling	—Unverified
Simulation d’erreurs d’OCR dans les systèmes de TAL pour le traitement de données anachroniques (Simulation of OCR errors in NLP systems for processing anachronistic data)	Jun 1, 2022	Optical Character Recognition (OCR)	—Unverified
An Open Source Contractual Language Understanding Application Using Machine Learning	Jun 1, 2022	Document Text ClassificationInformation Retrieval	CodeCode Available
Handwritten Character Generation using Y-Autoencoder for Character Recognition Model Training	Jun 1, 2022	Optical Character RecognitionOptical Character Recognition (OCR)	—Unverified
CAMIO: A Corpus for OCR in Multiple Languages	Jun 1, 2022	Optical Character RecognitionOptical Character Recognition (OCR)	—Unverified
Multilingual Named Entity Recognition for Medieval Charters Using Stacked Embeddings and Bert-based Models.	Jun 1, 2022	HTRMultilingual Named Entity Recognition	—Unverified
Optical character recognition quality affects perceived usefulness of historical newspaper clippings	Jun 1, 2022	ArticlesInformation Retrieval	—Unverified
Toolbox : une chaîne de traitement de corpus pour les humanités numériques (Toolbox : a corpus processing pipeline for digital humanities)	Jun 1, 2022	HTROptical Character Recognition (OCR)	—Unverified
Reconnaissance d’entités nommées sur des sorties OCR bruitées : des pistes pour la désambiguïsation morphologique automatique (Resolution of entity linking issues on noisy OCR output : automatic disambiguation tracks)	Jun 1, 2022	Entity LinkingOptical Character Recognition (OCR)	—Unverified
Between History and Natural Language Processing: Study, Enrichment and Online Publication of French Parliamentary Debates of the Early Third Republic (1881-1899)	Jun 1, 2022	Optical Character Recognition (OCR)	—Unverified
Generating Monolingual Dataset for Low Resource Language Bodo from old books using Google Keep	Jun 1, 2022	Optical Character Recognition (OCR)	—Unverified
DisinfoMeme: A Multimodal Dataset for Detecting Meme Intentionally Spreading Out Disinformation	May 25, 2022	Multimodal ReasoningOptical Character Recognition (OCR)	—Unverified
LILA-BOTI : Leveraging Isolated Letter Accumulations By Ordering Teacher Insights for Bangla Handwriting Recognition	May 23, 2022	Handwriting RecognitionKnowledge Distillation	CodeCode Available
Detection Masking for Improved OCR on Noisy Documents	May 17, 2022	Optical Character RecognitionOptical Character Recognition (OCR)	—Unverified
Towards Deployable OCR models for Indic languages	May 13, 2022	Optical Character Recognition (OCR)Segmentation	—Unverified
Text Detection on Technical Drawings for the Digitization of Brown-field Processes	May 5, 2022	Data Augmentationobject-detection	—Unverified
OCR Synthetic Benchmark Dataset for Indic Languages	May 5, 2022	Optical Character Recognition (OCR)	—Unverified
Explainable Publication Year Prediction of Eighteenth Century Texts with the BERT Model	May 1, 2022	Optical Character RecognitionOptical Character Recognition (OCR)	—Unverified
A Hybrid Defense Method against Adversarial Attacks on Traffic Sign Classifiers in Autonomous Vehicles	Apr 25, 2022	Autonomous VehiclesNavigate	—Unverified
Unitail: Detecting, Reading, and Matching in Retail Scene	Apr 1, 2022	BenchmarkingDense Object Detection	—Unverified
Benchmarking Algorithms for Automatic License Plate Recognition	Mar 27, 2022	BenchmarkingLicense Plate Recognition	—Unverified
Plagiarism Detection in the Bengali Language: A Text Similarity-Based Approach	Mar 25, 2022	Optical Character Recognition (OCR)text similarity	—Unverified
Towards Escaping from Language Bias and OCR Error: Semantics-Centered Text Visual Question Answering	Mar 24, 2022	Optical Character RecognitionOptical Character Recognition (OCR)	—Unverified
Language Matters: A Weakly Supervised Vision-Language Pre-training Approach for Scene Text Detection and Spotting	Mar 8, 2022	Optical Character RecognitionOptical Character Recognition (OCR)	—Unverified
OCR quality affects perceived usefulness of historical newspaper clippings -- a user study	Mar 4, 2022	ArticlesInformation Retrieval	—Unverified
OCR Improves Machine Translation for Low-Resource Languages	Feb 27, 2022	Machine TranslationOptical Character Recognition (OCR)	—Unverified
Improving Amharic Handwritten Word Recognition Using Auxiliary Task	Feb 25, 2022	Handwritten Text RecognitionOptical Character Recognition	—Unverified
Semi-Structured Query Grounding for Document-Oriented Databases with Deep Retrieval and Its Application to Receipt and POI Matching	Feb 23, 2022	Optical Character RecognitionOptical Character Recognition (OCR)	—Unverified
Identifying OCRs in cfDNA WGS Data by Correlation Clustering	Feb 19, 2022	Clusteringgraph construction	—Unverified
BLPnet: A new DNN model and Bengali OCR engine for Automatic License Plate Recognition	Feb 18, 2022	License Plate RecognitionManagement	—Unverified
Omnifont Persian OCR System Using Primitives	Feb 13, 2022	Optical Character Recognition (OCR)	—Unverified

Show:10 25 50

← PrevPage 14 of 25Next →

All datasets Benchmarking Chinese Text Recognition: Datasets, Baselines, and an Empirical Study VideoDB's OCR Benchmark Public Collection FSNS - Test I2L-140K SUT im2latex-100k

Benchmark Results

#	Model	Metric	Claimed	Verified	Status
1	DTrOCR	Accuracy (%)	89.6	—	Unverified
2	DTrOCR 105M	Accuracy (%)	89.6	—	Unverified
3	MaskOCR-L	Accuracy (%)	82.6	—	Unverified
4	TransOCR	Accuracy (%)	72.8	—	Unverified
5	SRN	Accuracy (%)	65	—	Unverified
6	MORAN	Accuracy (%)	64.3	—	Unverified
7	SEED	Accuracy (%)	61.2	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	GPT-4o	Average Accuracy	76.22	—	Unverified
2	Gemini-1.5 Pro	Average Accuracy	76.13	—	Unverified
3	Claude-3 Sonnet	Average Accuracy	67.71	—	Unverified
4	RapidOCR	Average Accuracy	56.98	—	Unverified
5	EasyOCR	Average Accuracy	49.3	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	STREET	Sequence error	27.54	—	Unverified
2	SEE	Sequence error	22	—	Unverified
3	AttentionOCR_Inception-resnet-v2_Location	Sequence error	15.8	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	I2L-NOPOOL	BLEU	89.09	—	Unverified
2	I2L-STRIPS	BLEU	89	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	Tesseract	Character Error Rate (CER)	0.08	—	Unverified
2	EasyOCR	Character Error Rate (CER)	0.07	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	I2L-STRIPS	BLEU	88.86	—	Unverified