Optical Character Recognition (OCR)

Optical Character Recognition or Optical Character Reader (OCR) is the electronic or mechanical conversion of images of typed, handwritten or printed text into machine-encoded text, whether from a scanned document, a photo of a document, a scene-photo (for example the text on signs and billboards in a landscape photo, license plates in cars...) or from subtitle text superimposed on an image (for example: from a television broadcast)

Papers

Recently Added Most Hyped Most Active Needs Verification Most Verified

Showing 201–250 of 1209 papers

Title	Date	Tasks	Status	Hype	Score
Geometry Restoration and Dewarping of Camera-Captured Document Images	Jan 6, 2025	Optical Character RecognitionOptical Character Recognition (OCR)	CodeCode Available	1	5
German Parliamentary Corpus (GerParCor)	Apr 21, 2022	Optical Character Recognition (OCR)	CodeCode Available	1	5
One Model is All You Need: ByT5-Sanskrit, a Unified Model for Sanskrit NLP Tasks	Sep 20, 2024	AllDependency Parsing	CodeCode Available	1	5
Confidence-aware Non-repetitive Multimodal Transformers for TextCaps	Dec 7, 2020	Image CaptioningOptical Character Recognition	CodeCode Available	1	5
Graph Neural Networks and Representation Embedding for Table Extraction in PDF Documents	Aug 23, 2022	Optical Character Recognition (OCR)Table Extraction	CodeCode Available	1	5
Towards Making Flowchart Images Machine Interpretable	Jan 29, 2025	Code GenerationOptical Character Recognition (OCR)	CodeCode Available	1	5
CMULAB: An Open-Source Framework for Training and Deployment of Natural Language Processing Models	Apr 3, 2024	Optical Character Recognition (OCR)speech-recognition	CodeCode Available	1	5
MCSCSet: A Specialist-annotated Dataset for Medical-domain Chinese Spelling Correction	Oct 21, 2022	Optical Character RecognitionOptical Character Recognition (OCR)	CodeCode Available	1	5
An Unsupervised method for OCR Post-Correction and Spelling Normalisation for Finnish	Nov 6, 2020	Machine TranslationNMT	CodeCode Available	1	5
HAPI: A Large-scale Longitudinal Dataset of Commercial ML API Predictions	Sep 18, 2022	object-detectionObject Detection	CodeCode Available	1	5
ClusterTabNet: Supervised clustering method for table detection and table structure recognition	Feb 12, 2024	ClusteringOptical Character Recognition (OCR)	CodeCode Available	1	5
Hespi: A pipeline for automatically detecting information from hebarium specimen sheets	Oct 11, 2024	Handwritten Text RecognitionHTR	CodeCode Available	1	5
Unsupervised Audio-Visual Lecture Segmentation	Oct 29, 2022	NavigateOptical Character Recognition (OCR)	CodeCode Available	1	5
UReader: Universal OCR-free Visually-situated Language Understanding with Multimodal Large Language Model	Oct 8, 2023	DecoderLanguage Modeling	CodeCode Available	1	5
A Deep Learning Approach to Geographical Candidate Selection through Toponym Matching	Sep 17, 2020	Deep LearningEntity Resolution	CodeCode Available	1	5
DocTr: Document Image Transformer for Geometric Unwarping and Illumination Correction	Oct 25, 2021	Optical Character Recognition (OCR)	CodeCode Available	1	5
Image-text matching for large-scale book collections	Jul 29, 2024	Image-text matchingOptical Character Recognition (OCR)	CodeCode Available	1	5
Image-based table recognition: data, model, and evaluation	Nov 25, 2019	ArticlesDecoder	CodeCode Available	1	5
PEaCE: A Chemistry-Oriented Dataset for Optical Character Recognition on Scientific Documents	Mar 23, 2024	ArticlesOptical Character Recognition	CodeCode Available	1	5
On Web-based Visual Corpus Construction for Visual Document Understanding	Nov 7, 2022	document understandingOptical Character Recognition (OCR)	CodeCode Available	1	5
LMV-RPA: Large Model Voting-based Robotic Process Automation	Dec 23, 2024	Optical Character RecognitionOptical Character Recognition (OCR)	CodeCode Available	0	5
M3T: A New Benchmark Dataset for Multi-Modal Document-Level Machine Translation	Jun 12, 2024	Document Level Machine TranslationDocument Translation	CodeCode Available	0	5
CLOCR-C: Context Leveraging OCR Correction with Pre-trained Language Models	Aug 30, 2024	Articlesnamed-entity-recognition	CodeCode Available	0	5
AdaVideoRAG: Omni-Contextual Adaptive Retrieval-Augmented Efficient Long Video Understanding	Jun 16, 2025	Optical Character Recognition (OCR)RAG	CodeCode Available	0	5
LILA-BOTI : Leveraging Isolated Letter Accumulations By Ordering Teacher Insights for Bangla Handwriting Recognition	May 23, 2022	Handwriting RecognitionKnowledge Distillation	CodeCode Available	0	5
Levenshtein OCR	Sep 8, 2022	Imitation LearningOptical Character Recognition (OCR)	CodeCode Available	0	5
Arrow-Guided VLM: Enhancing Flowchart Understanding via Arrow Direction Encoding	May 9, 2025	Optical Character RecognitionOptical Character Recognition (OCR)	CodeCode Available	0	5
A Data-driven Investigation of Euphemistic Language: Comparing the usage of "slave" and "servant" in 19th century US newspapers	Mar 19, 2025	Optical Character Recognition (OCR)	CodeCode Available	0	5
LEGAL-UQA: A Low-Resource Urdu-English Dataset for Legal Question Answering	Oct 16, 2024	Optical Character Recognition (OCR)Question Answering	CodeCode Available	0	5
Are VLMs Really Blind	Oct 29, 2024	Language ModelingLanguage Modelling	CodeCode Available	0	5
License Plate Detection and Recognition in Unconstrained Scenarios	Sep 1, 2018	License Plate DetectionLicense Plate Recognition	CodeCode Available	0	5
Latent Tree Language Model	Nov 1, 2016	Automatic Speech Recognition (ASR)Language Modeling	CodeCode Available	0	5
LAREX - A semi-automatic open-source Tool for Layout Analysis and Region Extraction on Early Printed Books	Jan 20, 2017	Optical Character Recognition (OCR)	CodeCode Available	0	5
ChemScraper: Leveraging PDF Graphics Instructions for Molecular Diagram Parsing	Nov 20, 2023	Optical Character RecognitionOptical Character Recognition (OCR)	CodeCode Available	0	5
ChemGrapher: Optical Graph Recognition of Chemical Compounds by Deep Learning	Feb 23, 2020	ArticlesDeep Learning	CodeCode Available	0	5
KL3M Tokenizers: A Family of Domain-Specific and Character-Level Tokenizers for Legal, Financial, and Preprocessing Applications	Mar 21, 2025	16k4k	CodeCode Available	0	5
KAP: MLLM-assisted OCR Text Enhancement for Hybrid Retrieval in Chinese Non-Narrative Documents	Mar 11, 2025	Optical Character Recognition (OCR)Retrieval	CodeCode Available	0	5
Chinese Text in the Wild	Feb 28, 2018	Optical Character Recognition (OCR)	CodeCode Available	0	5
It Takes Two to Tango: Combining Visual and Textual Information for Detecting Duplicate Video-Based Bug Reports	Jan 22, 2021	Optical Character RecognitionOptical Character Recognition (OCR)	CodeCode Available	0	5
Optimal Projections for Discriminative Dictionary Learning using the JL-lemma	Aug 27, 2023	Dictionary LearningDimensionality Reduction	CodeCode Available	0	5
Investigating OCR-Sensitive Neurons to Improve Entity Recognition in Historical Documents	Sep 25, 2024	named-entity-recognitionNamed Entity Recognition	CodeCode Available	0	5
Aligned Music Notation and Lyrics Transcription	Dec 5, 2024	Language ModelingLanguage Modelling	CodeCode Available	0	5
Jochre 3 and the Yiddish OCR corpus	Jan 14, 2025	Optical Character Recognition (OCR)	CodeCode Available	0	5
Cleaning Dirty Books: Post-OCR Processing for Previously Scanned Texts	Oct 22, 2021	Optical Character RecognitionOptical Character Recognition (OCR)	CodeCode Available	0	5
Alleviating Digitization Errors in Named Entity Recognition for Historical Documents	Nov 1, 2020	named-entity-recognitionNamed Entity Recognition	CodeCode Available	0	5
Infinity Parser: Layout Aware Reinforcement Learning for Scanned Document Parsing	Jun 1, 2025	Document AIdocument understanding	CodeCode Available	0	5
Adapting the Tesseract Open Source OCR Engine for Multilingual OCR	Jul 25, 2009	Optical Character Recognition (OCR)	CodeCode Available	0	5
InstructOCR: Instruction Boosting Scene Text Spotting	Dec 20, 2024	Optical Character Recognition (OCR)Text Spotting	CodeCode Available	0	5
Indiscapes: Instance Segmentation Networks for Layout Parsing of Historical Indic Manuscripts	Dec 15, 2019	DiversityInstance Segmentation	CodeCode Available	0	5
Judge a Book by its Cover: Investigating Multi-Modal LLMs for Multi-Page Handwritten Document Transcription	Feb 27, 2025	Handwritten Text RecognitionHTR	CodeCode Available	0	5

Show:10 25 50

← PrevPage 5 of 25Next →

All datasets Benchmarking Chinese Text Recognition: Datasets, Baselines, and an Empirical Study VideoDB's OCR Benchmark Public Collection FSNS - Test I2L-140K SUT im2latex-100k

Benchmark Results

#	Model	Metric	Claimed	Verified	Status
1	DTrOCR	Accuracy (%)	89.6	—	Unverified
2	DTrOCR 105M	Accuracy (%)	89.6	—	Unverified
3	MaskOCR-L	Accuracy (%)	82.6	—	Unverified
4	TransOCR	Accuracy (%)	72.8	—	Unverified
5	SRN	Accuracy (%)	65	—	Unverified
6	MORAN	Accuracy (%)	64.3	—	Unverified
7	SEED	Accuracy (%)	61.2	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	GPT-4o	Average Accuracy	76.22	—	Unverified
2	Gemini-1.5 Pro	Average Accuracy	76.13	—	Unverified
3	Claude-3 Sonnet	Average Accuracy	67.71	—	Unverified
4	RapidOCR	Average Accuracy	56.98	—	Unverified
5	EasyOCR	Average Accuracy	49.3	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	STREET	Sequence error	27.54	—	Unverified
2	SEE	Sequence error	22	—	Unverified
3	AttentionOCR_Inception-resnet-v2_Location	Sequence error	15.8	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	I2L-NOPOOL	BLEU	89.09	—	Unverified
2	I2L-STRIPS	BLEU	89	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	Tesseract	Character Error Rate (CER)	0.08	—	Unverified
2	EasyOCR	Character Error Rate (CER)	0.07	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	I2L-STRIPS	BLEU	88.86	—	Unverified