Optical Character Recognition (OCR)

Optical Character Recognition or Optical Character Reader (OCR) is the electronic or mechanical conversion of images of typed, handwritten or printed text into machine-encoded text, whether from a scanned document, a photo of a document, a scene-photo (for example the text on signs and billboards in a landscape photo, license plates in cars...) or from subtitle text superimposed on an image (for example: from a television broadcast)

Papers

Recently Added Most Hyped Most Active Needs Verification Most Verified

Showing 51–75 of 1209 papers

Title	Date	Tasks	Status	Hype
An Approach for Air Drawing Using Background Subtraction and Contour Extraction	Mar 3, 2025	Hand DetectionOptical Character Recognition (OCR)	CodeCode Available	2
LLaVAR: Enhanced Visual Instruction Tuning for Text-Rich Image Understanding	Jun 29, 2023	16kImage Captioning	CodeCode Available	2
MathVista: Evaluating Mathematical Reasoning of Foundation Models in Visual Contexts	Oct 3, 2023	ChatbotImage Captioning	CodeCode Available	2
DTrOCR: Decoder-only Transformer for Optical Character Recognition	Aug 30, 2023	DecoderHandwritten Text Recognition	CodeCode Available	2
MMLongBench-Doc: Benchmarking Long-context Document Understanding with Visualizations	Jul 1, 2024	Benchmarkingdocument understanding	CodeCode Available	2
IMKGA-SM: Interpretable Multimodal Knowledge Graph Answer Prediction via Sequence Modeling	Jan 6, 2023	Link PredictionOptical Character Recognition	CodeCode Available	2
GUICourse: From General Vision Language Models to Versatile GUI Agents	Jun 17, 2024	Natural Language Visual GroundingOptical Character Recognition (OCR)	CodeCode Available	2
Let's Fuse Step by Step: A Generative Fusion Decoding Algorithm with LLMs for Multi-modal Text Recognition	May 23, 2024	Automatic Speech RecognitionAutomatic Speech Recognition (ASR)	CodeCode Available	2
Arabic-Nougat: Fine-Tuning Vision Transformers for Arabic OCR and Markdown Extraction	Nov 19, 2024	document understandingOptical Character Recognition (OCR)	CodeCode Available	2
GIT: A Generative Image-to-text Transformer for Vision and Language	May 27, 2022	DecoderImage Captioning	CodeCode Available	2
General Detection-based Text Line Recognition	Sep 25, 2024	HTROptical Character Recognition (OCR)	CodeCode Available	2
GlyphControl: Glyph Conditional Control for Visual Text Generation	May 29, 2023	Optical Character Recognition (OCR)Text Generation	CodeCode Available	2
FigStep: Jailbreaking Large Vision-Language Models via Typographic Visual Prompts	Nov 9, 2023	Optical Character Recognition (OCR)Safety Alignment	CodeCode Available	1
FAWA: Fast Adversarial Watermark Attack on Optical Character Recognition (OCR) Systems	Dec 15, 2020	Optical Character RecognitionOptical Character Recognition (OCR)	CodeCode Available	1
FUNSD: A Dataset for Form Understanding in Noisy Scanned Documents	May 27, 2019	FormOptical Character Recognition	CodeCode Available	1
Exploring OCR Capabilities of GPT-4V(ision) : A Quantitative and In-depth Evaluation	Oct 25, 2023	Handwritten Text RecognitionKey Information Extraction	CodeCode Available	1
FlowLearn: Evaluating Large Vision-Language Models on Flowchart Understanding	Jul 6, 2024	Optical Character Recognition (OCR)Visual Question Answering (VQA)	CodeCode Available	1
Enhancing License Plate Super-Resolution: A Layout-Aware and Character-Driven Approach	Aug 27, 2024	License Plate RecognitionOptical Character Recognition	CodeCode Available	1
A Benchmark and Dataset for Post-OCR text correction in Sanskrit	Nov 15, 2022	AstronomyOptical Character Recognition (OCR)	CodeCode Available	1
Exploring Better Text Image Translation with Multimodal Codebook	May 27, 2023	Machine TranslationOptical Character Recognition	CodeCode Available	1
Efficient OCR for Building a Diverse Digital History	Apr 5, 2023	DiversityImage Retrieval	CodeCode Available	1
Adapting OCR with limited supervision	Jul 27, 2020	Optical Character Recognition (OCR)	CodeCode Available	1
End-to-End Information Extraction by Character-Level Embedding and Multi-Stage Attentional U-Net	Jun 2, 2021	Optical Character Recognition (OCR)	CodeCode Available	1
Exploring Cross-Image Pixel Contrast for Semantic Segmentation	Jan 28, 2021	Metric LearningOptical Character Recognition (OCR)	CodeCode Available	1
DSG: An End-to-End Document Structure Generator	Oct 13, 2023	Optical Character Recognition (OCR)	CodeCode Available	1

Show:10 25 50

← PrevPage 3 of 49Next →

All datasets Benchmarking Chinese Text Recognition: Datasets, Baselines, and an Empirical Study VideoDB's OCR Benchmark Public Collection FSNS - Test I2L-140K SUT im2latex-100k

Benchmark Results

#	Model	Metric	Claimed	Verified	Status
1	DTrOCR	Accuracy (%)	89.6	—	Unverified
2	DTrOCR 105M	Accuracy (%)	89.6	—	Unverified
3	MaskOCR-L	Accuracy (%)	82.6	—	Unverified
4	TransOCR	Accuracy (%)	72.8	—	Unverified
5	SRN	Accuracy (%)	65	—	Unverified
6	MORAN	Accuracy (%)	64.3	—	Unverified
7	SEED	Accuracy (%)	61.2	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	GPT-4o	Average Accuracy	76.22	—	Unverified
2	Gemini-1.5 Pro	Average Accuracy	76.13	—	Unverified
3	Claude-3 Sonnet	Average Accuracy	67.71	—	Unverified
4	RapidOCR	Average Accuracy	56.98	—	Unverified
5	EasyOCR	Average Accuracy	49.3	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	STREET	Sequence error	27.54	—	Unverified
2	SEE	Sequence error	22	—	Unverified
3	AttentionOCR_Inception-resnet-v2_Location	Sequence error	15.8	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	I2L-NOPOOL	BLEU	89.09	—	Unverified
2	I2L-STRIPS	BLEU	89	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	Tesseract	Character Error Rate (CER)	0.08	—	Unverified
2	EasyOCR	Character Error Rate (CER)	0.07	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	I2L-STRIPS	BLEU	88.86	—	Unverified