Optical Character Recognition (OCR)

Optical Character Recognition or Optical Character Reader (OCR) is the electronic or mechanical conversion of images of typed, handwritten or printed text into machine-encoded text, whether from a scanned document, a photo of a document, a scene-photo (for example the text on signs and billboards in a landscape photo, license plates in cars...) or from subtitle text superimposed on an image (for example: from a television broadcast)

Papers

Recently Added Most Hyped Most Active Needs Verification Most Verified

Showing 401–450 of 1209 papers

Title	Date	Tasks	Status	Hype
MathVista: Evaluating Mathematical Reasoning of Foundation Models in Visual Contexts	Oct 3, 2023	ChatbotImage Captioning	CodeCode Available	2
Constructing Image-Text Pair Dataset from Books	Oct 3, 2023	Image-text RetrievalOptical Character Recognition (OCR)	—Unverified	0
Comprehensive Overview of Named Entity Recognition: Models, Domain-Specific Applications and Challenges	Sep 25, 2023	named-entity-recognitionNamed Entity Recognition	—Unverified	0
Order-preserving Consistency Regularization for Domain Adaptation and Generalization	Sep 23, 2023	Data AugmentationDomain Adaptation	CodeCode Available	0
STEP -- Towards Structured Scene-Text Spotting	Sep 5, 2023	Optical Character Recognition (OCR)Scene Text Detection	CodeCode Available	0
Bengali Document Layout Analysis -- A YOLOV8 Based Ensembling Approach	Sep 2, 2023	Data AugmentationDocument Layout Analysis	—Unverified	0
Separate and Locate: Rethink the Text in Text-based Visual Question Answering	Aug 31, 2023	Optical Character Recognition (OCR)Position	CodeCode Available	0
DTrOCR: Decoder-only Transformer for Optical Character Recognition	Aug 30, 2023	DecoderHandwritten Text Recognition	CodeCode Available	2
Enhancing OCR Performance through Post-OCR Models: Adopting Glyph Embedding for Improved Correction	Aug 29, 2023	Optical Character Recognition (OCR)	—Unverified	0
Vision Grid Transformer for Document Layout Analysis	Aug 29, 2023	Document AIDocument Layout Analysis	—Unverified	0
Optimal Projections for Discriminative Dictionary Learning using the JL-lemma	Aug 27, 2023	Dictionary LearningDimensionality Reduction	CodeCode Available	0
Bengali Document Layout Analysis with Detectron2	Aug 26, 2023	Data AugmentationDocument Layout Analysis	—Unverified	0
DISGO: Automatic End-to-End Evaluation for Scene Text OCR	Aug 25, 2023	Machine TranslationOptical Character Recognition	—Unverified	0
Nougat: Neural Optical Understanding for Academic Documents	Aug 25, 2023	Optical Character RecognitionOptical Character Recognition (OCR)	CodeCode Available	5
American Stories: A Large-Scale Structured Text Dataset of Historical U.S. Newspapers	Aug 24, 2023	ArticlesLanguage Modeling	—Unverified	0
CNN based Cuneiform Sign Detection Learned from Annotated 3D Renderings and Mapped Photographs with Illumination Augmentation	Aug 22, 2023	Optical Character Recognition (OCR)	—Unverified	0
bbOCR: An Open-source Multi-domain OCR Pipeline for Bengali Documents	Aug 21, 2023	distortion correctionOptical Character Recognition	CodeCode Available	1
BLIVA: A Simple Multimodal LLM for Better Handling of Text-Rich Visual Questions	Aug 19, 2023	MMEOptical Character Recognition (OCR)	CodeCode Available	2
OCR Language Models with Custom Vocabularies	Aug 18, 2023	DecoderLanguage Modeling	—Unverified	0
FashionLOGO: Prompting Multimodal Large Language Models for Fashion Logo Embeddings	Aug 17, 2023	Image RetrievalLogo Recognition	CodeCode Available	0
OmniDataComposer: A Unified Data Structure for Multimodal Data Fusion and Infinite Data Generation	Aug 8, 2023	Automatic Speech RecognitionAutomatic Speech Recognition (ASR)	CodeCode Available	1
Training BERT Models to Carry Over a Coding System Developed on One Corpus to Another	Aug 7, 2023	Domain AdaptationOptical Character Recognition (OCR)	—Unverified	0
Universal Defensive Underpainting Patch: Making Your Text Invisible to Optical Character Recognition	Aug 4, 2023	Optical Character RecognitionOptical Character Recognition (OCR)	CodeCode Available	1
Toward Zero-shot Character Recognition: A Gold Standard Dataset with Radical-level Annotations	Aug 1, 2023	DenoisingImage Denoising	—Unverified	0
Making the V in Text-VQA Matter	Aug 1, 2023	Optical Character Recognition (OCR)TextVQA	—Unverified	0
Optimizing the Neural Network Training for OCR Error Correction of Historical Hebrew Texts	Jul 30, 2023	Optical Character RecognitionOptical Character Recognition (OCR)	—Unverified	0
Toward a Period-Specific Optimized Neural Network for OCR Error Correction of Historical Hebrew Texts	Jul 30, 2023	Optical Character RecognitionOptical Character Recognition (OCR)	—Unverified	0
Augmented Math: Authoring AR-Based Explorable Explanations by Augmenting Static Math Textbooks	Jul 30, 2023	MathOptical Character Recognition	CodeCode Available	0
Multi-Granularity Prediction with Learnable Fusion for Scene Text Recognition	Jul 25, 2023	Language ModellingOptical Character Recognition (OCR)	—Unverified	0
MataDoc: Margin and Text Aware Document Dewarping for Arbitrary Boundary	Jul 24, 2023	document understandingOptical Character Recognition (OCR)	—Unverified	0
A comparative analysis of SRGAN models	Jul 18, 2023	Generative Adversarial NetworkImage Super-Resolution	—Unverified	0
Modular Multimodal Machine Learning for Extraction of Theorems and Proofs in Long Scientific Documents (Extended Version)	Jul 18, 2023	ArticlesDocument AI	CodeCode Available	1
Handwritten and Printed Text Segmentation: A Signature Case Study	Jul 15, 2023	Binary ClassificationOptical Character Recognition	—Unverified	0
Handwritten Text Recognition Using Convolutional Neural Network	Jul 11, 2023	Handwritten Text RecognitionOptical Character Recognition	—Unverified	0
A Novel Pipeline for Improving Optical Character Recognition through Post-processing Using Natural Language Processing	Jul 9, 2023	Optical Character RecognitionOptical Character Recognition (OCR)	—Unverified	0
Artificial Eye for the Blind	Jul 7, 2023	Objectobject-detection	—Unverified	0
mPLUG-DocOwl: Modularized Multimodal Large Language Model for Document Understanding	Jul 4, 2023	document understandingLanguage Modeling	—Unverified	0
Estimating Post-OCR Denoising Complexity on Numerical Texts	Jul 3, 2023	DenoisingOptical Character Recognition (OCR)	—Unverified	0
Fraunhofer SIT at CheckThat! 2023: Mixing Single-Modal Classifiers to Estimate the Check-Worthiness of Multi-Modal Tweets	Jul 2, 2023	Fact CheckingOptical Character Recognition (OCR)	—Unverified	0
LLaVAR: Enhanced Visual Instruction Tuning for Text-Rich Image Understanding	Jun 29, 2023	16kImage Captioning	CodeCode Available	2
UTRNet: High-Resolution Urdu Text Recognition In Printed Documents	Jun 27, 2023	Line DetectionOptical Character Recognition (OCR)	CodeCode Available	1
Resume Information Extraction via Post-OCR Text Processing	Jun 23, 2023	Object RecognitionOptical Character Recognition	—Unverified	0
A Survey on Multimodal Large Language Models	Jun 23, 2023	HallucinationIn-Context Learning	—Unverified	0
Document Image Cleaning using Budget-Aware Black-Box Approximation	Jun 22, 2023	Optical Character Recognition (OCR)	CodeCode Available	0
GenPlot: Increasing the Scale and Diversity of Chart Derendering Data	Jun 20, 2023	DerenderingDiversity	CodeCode Available	1
Weakly supervised information extraction from inscrutable handwritten document images	Jun 12, 2023	Language ModelingLanguage Modelling	—Unverified	0
When Vision Fails: Text Attacks Against ViT and OCR	Jun 12, 2023	Optical Character Recognition (OCR)	CodeCode Available	0
SciCap+: A Knowledge Augmented Dataset to Study the Challenges of Scientific Figure Captioning	Jun 6, 2023	Caption GenerationImage Captioning	CodeCode Available	0
Transformer-Based UNet with Multi-Headed Cross-Attention Skip Connections to Eliminate Artifacts in Scanned Documents	Jun 5, 2023	DenoisingDocument Classification	—Unverified	0
TransDocAnalyser: A Framework for Offline Semi-structured Handwritten Document Analysis in the Legal Domain	Jun 3, 2023	BenchmarkingDecoder	CodeCode Available	1

Show:10 25 50

← PrevPage 9 of 25Next →

All datasets Benchmarking Chinese Text Recognition: Datasets, Baselines, and an Empirical Study VideoDB's OCR Benchmark Public Collection FSNS - Test I2L-140K SUT im2latex-100k

Benchmark Results

#	Model	Metric	Claimed	Verified	Status
1	DTrOCR 105M	Accuracy (%)	89.6	—	Unverified
2	DTrOCR	Accuracy (%)	89.6	—	Unverified
3	MaskOCR-L	Accuracy (%)	82.6	—	Unverified
4	TransOCR	Accuracy (%)	72.8	—	Unverified
5	SRN	Accuracy (%)	65	—	Unverified
6	MORAN	Accuracy (%)	64.3	—	Unverified
7	SEED	Accuracy (%)	61.2	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	GPT-4o	Average Accuracy	76.22	—	Unverified
2	Gemini-1.5 Pro	Average Accuracy	76.13	—	Unverified
3	Claude-3 Sonnet	Average Accuracy	67.71	—	Unverified
4	RapidOCR	Average Accuracy	56.98	—	Unverified
5	EasyOCR	Average Accuracy	49.3	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	STREET	Sequence error	27.54	—	Unverified
2	SEE	Sequence error	22	—	Unverified
3	AttentionOCR_Inception-resnet-v2_Location	Sequence error	15.8	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	I2L-NOPOOL	BLEU	89.09	—	Unverified
2	I2L-STRIPS	BLEU	89	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	Tesseract	Character Error Rate (CER)	0.08	—	Unverified
2	EasyOCR	Character Error Rate (CER)	0.07	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	I2L-STRIPS	BLEU	88.86	—	Unverified