Optical Character Recognition (OCR)

Optical Character Recognition or Optical Character Reader (OCR) is the electronic or mechanical conversion of images of typed, handwritten or printed text into machine-encoded text, whether from a scanned document, a photo of a document, a scene-photo (for example the text on signs and billboards in a landscape photo, license plates in cars...) or from subtitle text superimposed on an image (for example: from a television broadcast)

Papers

Recently Added Most Hyped Most Active Needs Verification Most Verified

Showing 51–75 of 1209 papers

Title	Date	Tasks	Status	Hype	Score
Let's Fuse Step by Step: A Generative Fusion Decoding Algorithm with LLMs for Multi-modal Text Recognition	May 23, 2024	Automatic Speech RecognitionAutomatic Speech Recognition (ASR)	CodeCode Available	2	5
DTrOCR: Decoder-only Transformer for Optical Character Recognition	Aug 30, 2023	DecoderHandwritten Text Recognition	CodeCode Available	2	5
LLaVAR: Enhanced Visual Instruction Tuning for Text-Rich Image Understanding	Jun 29, 2023	16kImage Captioning	CodeCode Available	2	5
An Empirical Study of Scaling Law for Scene Text Recognition	Jan 1, 2024	Optical Character Recognition (OCR)Scene Text Recognition	CodeCode Available	2	5
GUICourse: From General Vision Language Models to Versatile GUI Agents	Jun 17, 2024	Natural Language Visual GroundingOptical Character Recognition (OCR)	CodeCode Available	2	5
IMKGA-SM: Interpretable Multimodal Knowledge Graph Answer Prediction via Sequence Modeling	Jan 6, 2023	Link PredictionOptical Character Recognition	CodeCode Available	2	5
GIT: A Generative Image-to-text Transformer for Vision and Language	May 27, 2022	DecoderImage Captioning	CodeCode Available	2	5
Delivering Document Conversion as a Cloud Service with High Throughput and Responsiveness	Jun 1, 2022	CPUdocument understanding	CodeCode Available	2	5
General Detection-based Text Line Recognition	Sep 25, 2024	HTROptical Character Recognition (OCR)	CodeCode Available	2	5
GlyphControl: Glyph Conditional Control for Visual Text Generation	May 29, 2023	Optical Character Recognition (OCR)Text Generation	CodeCode Available	2	5
MouSi: Poly-Visual-Expert Vision-Language Models	Jan 30, 2024	Image SegmentationImage-text matching	CodeCode Available	2	5
BLIVA: A Simple Multimodal LLM for Better Handling of Text-Rich Visual Questions	Aug 19, 2023	MMEOptical Character Recognition (OCR)	CodeCode Available	2	5
FigStep: Jailbreaking Large Vision-Language Models via Typographic Visual Prompts	Nov 9, 2023	Optical Character Recognition (OCR)Safety Alignment	CodeCode Available	1	5
BROS: A Pre-trained Language Model Focusing on Text and Layout for Better Key Information Extraction from Documents	Aug 10, 2021	Key Information ExtractionLanguage Modeling	CodeCode Available	1	5
FUNSD: A Dataset for Form Understanding in Noisy Scanned Documents	May 27, 2019	FormOptical Character Recognition	CodeCode Available	1	5
FAWA: Fast Adversarial Watermark Attack on Optical Character Recognition (OCR) Systems	Dec 15, 2020	Optical Character RecognitionOptical Character Recognition (OCR)	CodeCode Available	1	5
FlowLearn: Evaluating Large Vision-Language Models on Flowchart Understanding	Jul 6, 2024	Optical Character Recognition (OCR)Visual Question Answering (VQA)	CodeCode Available	1	5
Benchmarking Vision-Language Models on Optical Character Recognition in Dynamic Video Environments	Feb 10, 2025	BenchmarkingOptical Character Recognition	CodeCode Available	1	5
A Benchmark and Dataset for Post-OCR text correction in Sanskrit	Nov 15, 2022	AstronomyOptical Character Recognition (OCR)	CodeCode Available	1	5
Exploring Cross-Image Pixel Contrast for Semantic Segmentation	Jan 28, 2021	Metric LearningOptical Character Recognition (OCR)	CodeCode Available	1	5
Enhancing License Plate Super-Resolution: A Layout-Aware and Character-Driven Approach	Aug 27, 2024	License Plate RecognitionOptical Character Recognition	CodeCode Available	1	5
Adapting OCR with limited supervision	Jul 27, 2020	Optical Character Recognition (OCR)	CodeCode Available	1	5
Exploring Better Text Image Translation with Multimodal Codebook	May 27, 2023	Machine TranslationOptical Character Recognition	CodeCode Available	1	5
Exploring OCR Capabilities of GPT-4V(ision) : A Quantitative and In-depth Evaluation	Oct 25, 2023	Handwritten Text RecognitionKey Information Extraction	CodeCode Available	1	5
EAST: An Efficient and Accurate Scene Text Detector	Apr 11, 2017	Curved Text DetectionOptical Character Recognition (OCR)	CodeCode Available	1	5

Show:10 25 50

← PrevPage 3 of 49Next →

All datasets Benchmarking Chinese Text Recognition: Datasets, Baselines, and an Empirical Study VideoDB's OCR Benchmark Public Collection FSNS - Test I2L-140K SUT im2latex-100k

Benchmark Results

#	Model	Metric	Claimed	Verified	Status
1	DTrOCR	Accuracy (%)	89.6	—	Unverified
2	DTrOCR 105M	Accuracy (%)	89.6	—	Unverified
3	MaskOCR-L	Accuracy (%)	82.6	—	Unverified
4	TransOCR	Accuracy (%)	72.8	—	Unverified
5	SRN	Accuracy (%)	65	—	Unverified
6	MORAN	Accuracy (%)	64.3	—	Unverified
7	SEED	Accuracy (%)	61.2	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	GPT-4o	Average Accuracy	76.22	—	Unverified
2	Gemini-1.5 Pro	Average Accuracy	76.13	—	Unverified
3	Claude-3 Sonnet	Average Accuracy	67.71	—	Unverified
4	RapidOCR	Average Accuracy	56.98	—	Unverified
5	EasyOCR	Average Accuracy	49.3	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	STREET	Sequence error	27.54	—	Unverified
2	SEE	Sequence error	22	—	Unverified
3	AttentionOCR_Inception-resnet-v2_Location	Sequence error	15.8	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	I2L-NOPOOL	BLEU	89.09	—	Unverified
2	I2L-STRIPS	BLEU	89	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	Tesseract	Character Error Rate (CER)	0.08	—	Unverified
2	EasyOCR	Character Error Rate (CER)	0.07	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	I2L-STRIPS	BLEU	88.86	—	Unverified