Optical Character Recognition (OCR)

Optical Character Recognition or Optical Character Reader (OCR) is the electronic or mechanical conversion of images of typed, handwritten or printed text into machine-encoded text, whether from a scanned document, a photo of a document, a scene-photo (for example the text on signs and billboards in a landscape photo, license plates in cars...) or from subtitle text superimposed on an image (for example: from a television broadcast)

Papers

Recently Added Most Hyped Most Active Needs Verification Most Verified

Showing 1101–1150 of 1209 papers

Title	Date	Tasks	Status
GeoContrastNet: Contrastive Key-Value Edge Learning for Language-Agnostic Document Understanding	May 6, 2024	Contrastive Learningdocument understanding	CodeCode Available
Gated Recurrent Convolution Neural Network for OCR	Dec 1, 2017	General Classificationimage-classification	CodeCode Available
SPAN: a Simple Predict & Align Network for Handwritten Paragraph Recognition	Feb 17, 2021	Handwriting RecognitionHandwritten Text Recognition	CodeCode Available
Spanish TrOCR: Leveraging Transfer Learning for Language Adaptation	Jul 9, 2024	DecoderImage Generation	CodeCode Available
Mobile User Interface Element Detection Via Adaptively Prompt Tuning	May 16, 2023	object-detectionObject Detection	CodeCode Available
DDI-100: Dataset for Text Detection and Recognition	Dec 25, 2019	Optical Character RecognitionOptical Character Recognition (OCR)	CodeCode Available
From Videos to URLs: A Multi-Browser Guide To Extract User's Behavior with Optical Character Recognition	Nov 15, 2018	MarketingOptical Character Recognition	CodeCode Available
AiM: Taking Answers in Mind to Correct Chinese Cloze Tests in Educational Applications	Aug 26, 2022	Optical Character Recognition (OCR)	CodeCode Available
A Tool for Facilitating OCR Postediting in Historical Documents	Apr 23, 2020	Language ModelingLanguage Modelling	CodeCode Available
ChemScraper: Leveraging PDF Graphics Instructions for Molecular Diagram Parsing	Nov 20, 2023	Optical Character RecognitionOptical Character Recognition (OCR)	CodeCode Available
From the Paft to the Fiiture: a Fully Automatic NMT and Word Embeddings Method for OCR Post-Correction	Oct 12, 2019	BIG-bench Machine LearningMachine Translation	CodeCode Available
MRZ code extraction from visa and passport documents using convolutional neural networks	Sep 11, 2020	Optical Character RecognitionOptical Character Recognition (OCR)	CodeCode Available
Word-Level Alignment of Paper Documents with their Electronic Full-Text Counterparts	Apr 30, 2021	Optical Character Recognition (OCR)	CodeCode Available
ChemGrapher: Optical Graph Recognition of Chemical Compounds by Deep Learning	Feb 23, 2020	ArticlesDeep Learning	CodeCode Available
A template-independent approach for information extraction in real estate documents	May 30, 2023	Information RetrievalNatural Language Understanding	CodeCode Available
Multi-Granularity Prediction for Scene Text Recognition	Sep 8, 2022	Language ModelingLanguage Modelling	CodeCode Available
PsOCR: Benchmarking Large Multimodal Models for Optical Character Recognition in Low-resource Pashto Language	May 15, 2025	BenchmarkingOptical Character Recognition	CodeCode Available
A Hybrid Approach to Automatic Corpus Generation for Chinese Spelling Check	Oct 1, 2018	Language ModelingLanguage Modelling	CodeCode Available
State of the Art Optical Character Recognition of 19th Century Fraktur Scripts using Open Source Engines	Oct 8, 2018	Optical Character RecognitionOptical Character Recognition (OCR)	CodeCode Available
FINN-L: Library Extensions and Design Trade-off Analysis for Variable Precision LSTM Networks on FPGAs	Jul 11, 2018	Optical Character RecognitionOptical Character Recognition (OCR)	CodeCode Available
TF-LM: TensorFlow-based Language Modeling Toolkit	May 1, 2018	Language ModelingLanguage Modelling	CodeCode Available
Multimodal deep networks for text and image-based document classification	Jul 15, 2019	ClassificationDocument Classification	CodeCode Available
FastTextSpotter: A High-Efficiency Transformer for Multilingual Scene Text Spotting	Aug 27, 2024	BenchmarkingDecoder	CodeCode Available
FashionLOGO: Prompting Multimodal Large Language Models for Fashion Logo Embeddings	Aug 17, 2023	Image RetrievalLogo Recognition	CodeCode Available
Multi-modal Page Stream Segmentation with Convolutional Neural Networks	Sep 27, 2019	Optical Character RecognitionOptical Character Recognition (OCR)	CodeCode Available
Quantifying Character Similarity with Vision Transformers	May 24, 2023	Optical Character Recognition (OCR)	CodeCode Available
Low-Resource Language Processing: An OCR-Driven Summarization and Translation Pipeline	May 16, 2025	Abstractive Text SummarizationLanguage Modeling	CodeCode Available
Are VLMs Really Blind	Oct 29, 2024	Language ModelingLanguage Modelling	CodeCode Available
DCQA: Document-Level Chart Question Answering towards Complex Reasoning and Common-Sense Understanding	Oct 29, 2023	Answer GenerationChart Question Answering	CodeCode Available
MultiOCR-QA: Dataset for Evaluating Robustness of LLMs in Question Answering on Multilingual OCR Texts	Feb 24, 2025	Optical Character RecognitionOptical Character Recognition (OCR)	CodeCode Available
Multi-Page Document Visual Question Answering using Self-Attention Scoring Mechanism	Apr 29, 2024	document understandingGPU	CodeCode Available
STEP -- Towards Structured Scene-Text Spotting	Sep 5, 2023	Optical Character Recognition (OCR)Scene Text Detection	CodeCode Available
Reading Between the Mud: A Challenging Motorcycle Racer Number Dataset	Nov 14, 2023	Optical Character RecognitionOptical Character Recognition (OCR)	CodeCode Available
AON: Towards Arbitrarily-Oriented Text Recognition	Nov 12, 2017	DecoderOptical Character Recognition	CodeCode Available
Reading the unreadable: Creating a dataset of 19th century English newspapers using image-to-text language models	Feb 18, 2025	Image to textOptical Character Recognition	CodeCode Available
Evaluating Menu OCR and Translation: A Benchmark for Aligning Human and Automated Evaluations in Large Vision-Language Models	Apr 16, 2025	document understandingLayout Design	CodeCode Available
Enhancing Assamese NLP Capabilities: Introducing a Centralized Dataset Repository	Oct 15, 2024	DiversityMachine Translation	CodeCode Available
STN-OCR: A single Neural Network for Text Detection and Text Recognition	Jul 27, 2017	Optical Character Recognition (OCR)Scene Text Detection	CodeCode Available
Character decomposition to resolve class imbalance problem in Hangul OCR	Aug 12, 2022	Optical Character RecognitionOptical Character Recognition (OCR)	CodeCode Available
Upcycle Your OCR: Reusing OCRs for Post-OCR Text Correction in Romanised Sanskrit	Sep 6, 2018	Optical Character Recognition (OCR)	CodeCode Available
NASS-AI: Towards Digitization of Parliamentary Bills using Document Level Embedding and Bidirectional Long Short-Term Memory	Oct 2, 2019	Optical Character RecognitionOptical Character Recognition (OCR)	CodeCode Available
End-to-End Optical Character Recognition for Bengali Handwritten Words	May 9, 2021	Optical Character RecognitionOptical Character Recognition (OCR)	CodeCode Available
Data-Driven Spelling Correction using Weighted Finite-State Methods	Aug 1, 2016	Optical Character Recognition (OCR)Spelling Correction	CodeCode Available
Data Centric Domain Adaptation for Historical Text with OCR Errors	Jul 2, 2021	Cross-Domain Named Entity RecognitionDomain Adaptation	CodeCode Available
End-to-End Interpretation of the French Street Name Signs Dataset	Feb 13, 2017	Optical Character Recognition (OCR)	CodeCode Available
Empirical Error Modeling Improves Robustness of Noisy Neural Sequence Labeling	May 25, 2021	Language ModelingLanguage Modelling	CodeCode Available
Stroke extraction for offline handwritten mathematical expression recognition	May 16, 2019	Optical Character RecognitionOptical Character Recognition (OCR)	CodeCode Available
StrucTexTv2: Masked Visual-Textual Prediction for Document Image Pre-training	Mar 1, 2023	Document Image Classificationimage-classification	CodeCode Available
Noisy Parallel Data Alignment	Jan 23, 2023	Optical Character RecognitionOptical Character Recognition (OCR)	CodeCode Available
Track the Answer: Extending TextVQA from Image to Video with Spatio-Temporal Clues	Dec 17, 2024	Language ModelingLanguage Modelling	CodeCode Available

Show:10 25 50

← PrevPage 23 of 25Next →

All datasets Benchmarking Chinese Text Recognition: Datasets, Baselines, and an Empirical Study VideoDB's OCR Benchmark Public Collection FSNS - Test I2L-140K SUT im2latex-100k

Benchmark Results

#	Model	Metric	Claimed	Verified	Status
1	DTrOCR	Accuracy (%)	89.6	—	Unverified
2	DTrOCR 105M	Accuracy (%)	89.6	—	Unverified
3	MaskOCR-L	Accuracy (%)	82.6	—	Unverified
4	TransOCR	Accuracy (%)	72.8	—	Unverified
5	SRN	Accuracy (%)	65	—	Unverified
6	MORAN	Accuracy (%)	64.3	—	Unverified
7	SEED	Accuracy (%)	61.2	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	GPT-4o	Average Accuracy	76.22	—	Unverified
2	Gemini-1.5 Pro	Average Accuracy	76.13	—	Unverified
3	Claude-3 Sonnet	Average Accuracy	67.71	—	Unverified
4	RapidOCR	Average Accuracy	56.98	—	Unverified
5	EasyOCR	Average Accuracy	49.3	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	STREET	Sequence error	27.54	—	Unverified
2	SEE	Sequence error	22	—	Unverified
3	AttentionOCR_Inception-resnet-v2_Location	Sequence error	15.8	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	I2L-NOPOOL	BLEU	89.09	—	Unverified
2	I2L-STRIPS	BLEU	89	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	Tesseract	Character Error Rate (CER)	0.08	—	Unverified
2	EasyOCR	Character Error Rate (CER)	0.07	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	I2L-STRIPS	BLEU	88.86	—	Unverified