Optical Character Recognition (OCR)

Optical Character Recognition or Optical Character Reader (OCR) is the electronic or mechanical conversion of images of typed, handwritten or printed text into machine-encoded text, whether from a scanned document, a photo of a document, a scene-photo (for example the text on signs and billboards in a landscape photo, license plates in cars...) or from subtitle text superimposed on an image (for example: from a television broadcast)

Papers

Recently Added Most Hyped Most Active Needs Verification Most Verified

Showing 451–500 of 1209 papers

Title	Date	Tasks	Status
Transfer Learning Approach for Railway Technical Map (RTM) Component Identification	May 21, 2024	Managementobject-detection	—Unverified
GeoContrastNet: Contrastive Key-Value Edge Learning for Language-Agnostic Document Understanding	May 6, 2024	Contrastive Learningdocument understanding	CodeCode Available
Callico: a Versatile Open-Source Document Image Annotation Platform	May 2, 2024	Document Layout AnalysisHTR	—Unverified
CREPE: Coordinate-Aware End-to-End Document Parser	May 1, 2024	document understandingOptical Character Recognition (OCR)	—Unverified
DELINE8K: A Synthetic Data Pipeline for the Semantic Segmentation of Historical Documents	Apr 30, 2024	8kDiversity	CodeCode Available
Multi-Page Document Visual Question Answering using Self-Attention Scoring Mechanism	Apr 29, 2024	document understandingGPU	CodeCode Available
How Far Are We to GPT-4V? Closing the Gap to Commercial Multimodal Models with Open-Source Suites	Apr 25, 2024	4kLanguage Modeling	—Unverified
Mixed Text Recognition with Efficient Parameter Fine-Tuning and Transformer	Apr 19, 2024	DecoderOptical Character Recognition	—Unverified
Improvement in Semantic Address Matching using Natural Language Processing	Apr 17, 2024	Optical Character Recognition (OCR)	—Unverified
ViTextVQA: A Large-Scale Visual Question Answering Dataset for Evaluating Vietnamese Text Comprehension in Images	Apr 16, 2024	Multimodal Deep LearningOptical Character Recognition (OCR)	CodeCode Available
TC-OCR: TableCraft OCR for Efficient Detection & Recognition of Table Structure & Content	Apr 16, 2024	Information RetrievalKnowledge Graphs	—Unverified
MathWriting: A Dataset For Handwritten Mathematical Expression Recognition	Apr 16, 2024	FormOptical Character Recognition (OCR)	—Unverified
Resilience of Large Language Models for Noisy Instructions	Apr 15, 2024	Automatic Speech RecognitionOptical Character Recognition	—Unverified
Convolution-based Probability Gradient Loss for Semantic Segmentation	Apr 10, 2024	Optical Character Recognition (OCR)Semantic Segmentation	CodeCode Available
Making Old Kurdish Publications Processable by Augmenting Available Optical Character Recognition Engines	Apr 9, 2024	Optical Character RecognitionOptical Character Recognition (OCR)	—Unverified
HAMMR: HierArchical MultiModal React agents for generic VQA	Apr 8, 2024	Optical Character Recognition (OCR)Question Answering	—Unverified
Design and Development of a Framework For Stroke-Based Handwritten Gujarati Font Generation	Apr 4, 2024	Font GenerationOptical Character Recognition (OCR)	—Unverified
Optical Text Recognition in Nepali and Bengali: A Transformer-based Approach	Apr 3, 2024	DecoderMachine Translation	—Unverified
RealKIE: Five Novel Datasets for Enterprise Key Information Extraction	Mar 29, 2024	Key Information ExtractionOptical Character Recognition (OCR)	—Unverified
The Solution for the ICCV 2023 1st Scientific Figure Captioning Challenge	Mar 26, 2024	Caption GenerationImage Captioning	—Unverified
SciCapenter: Supporting Caption Composition for Scientific Figures with Machine-Generated Captions and Ratings	Mar 26, 2024	Optical Character Recognition (OCR)	—Unverified
Grammatical vs Spelling Error Correction: An Investigation into the Responsiveness of Transformer-based Language Models using BART and MarianMT	Mar 25, 2024	Optical Character Recognition (OCR)speech-recognition	—Unverified
Refining Text-to-Image Generation: Towards Accurate Training-Free Glyph-Enhanced Image Generation	Mar 25, 2024	Image GenerationOptical Character Recognition (OCR)	—Unverified
Chart-based Reasoning: Transferring Capabilities from LLMs to VLMs	Mar 19, 2024	Chart Question AnsweringOptical Character Recognition (OCR)	—Unverified
mPLUG-DocOwl 1.5: Unified Structure Learning for OCR-free Document Understanding	Mar 19, 2024	document understandingOptical Character Recognition (OCR)	—Unverified
Financial Table Extraction in Image Documents	Mar 18, 2024	Image SegmentationOptical Character Recognition (OCR)	—Unverified
OCR is All you need: Importing Multi-Modality into Image-based Defect Detection System	Mar 18, 2024	AllDecision Making	—Unverified
Advancing Multilingual Handwritten Numeral Recognition with Attention-driven Transfer Learning	Mar 18, 2024	Handwritten Digit RecognitionOptical Character Recognition	CodeCode Available
Advanced Knowledge Extraction of Physical Design Drawings, Translation and conversion to CAD formats using Deep Learning	Mar 17, 2024	Edge DetectionLine Detection	—Unverified
TextBlockV2: Towards Precise-Detection-Free Scene Text Spotting with Pre-trained Language Model	Mar 15, 2024	Language ModelingLanguage Modelling	—Unverified
Eyes Closed, Safety On: Protecting Multimodal LLMs via Image-to-Text Transformation	Mar 14, 2024	Image to textOptical Character Recognition (OCR)	—Unverified
Adversarial Training with OCR Modality Perturbation for Scene-Text Visual Question Answering	Mar 14, 2024	Optical Character RecognitionOptical Character Recognition (OCR)	CodeCode Available
Rich Semantic Knowledge Enhanced Large Language Models for Few-shot Chinese Spell Checking	Mar 13, 2024	Chinese Spell CheckingIn-Context Learning	—Unverified
Open-Vocabulary Scene Text Recognition via Pseudo-Image Labeling and Margin Loss	Mar 12, 2024	Image InpaintingOptical Character Recognition (OCR)	—Unverified
The future of document indexing: GPT and Donut revolutionize table of content processing	Mar 12, 2024	Language ModelingLanguage Modelling	—Unverified
Multimodal Transformer for Comics Text-Cloze	Mar 6, 2024	Language ModelingLanguage Modelling	—Unverified
LOCR: Location-Guided Transformer for Optical Character Recognition	Mar 4, 2024	MarketingOptical Character Recognition	—Unverified
Large Language Models for Simultaneous Named Entity Extraction and Spelling Correction	Mar 1, 2024	DecoderOptical Character Recognition	—Unverified
Advancing Generative Model Evaluation: A Novel Algorithm for Realistic Image Synthesis and Comparison in OCR System	Feb 27, 2024	Image GenerationOptical Character Recognition (OCR)	—Unverified
Representing Online Handwriting for Recognition in Large Vision-Language Models	Feb 23, 2024	Handwriting RecognitionOptical Character Recognition	—Unverified
Syntactic Language Change in English and German: Metrics, Parsers, and Convergences	Feb 18, 2024	Optical Character Recognition (OCR)Sentence	CodeCode Available
Beyond the Mud: Datasets and Benchmarks for Computer Vision in Off-Road Racing	Feb 12, 2024	Optical Character RecognitionOptical Character Recognition (OCR)	—Unverified
Segmentation-free Connectionist Temporal Classification loss based OCR Model for Text Captcha Classification	Feb 8, 2024	CAPTCHA DetectionClassification	—Unverified
Enhancement of Bengali OCR by Specialized Models and Advanced Techniques for Diverse Document Types	Feb 7, 2024	Optical Character Recognition (OCR)Table Recognition	—Unverified
ExTTNet: A Deep Learning Algorithm for Extracting Table Texts from Invoice Images	Feb 3, 2024	Optical Character RecognitionOptical Character Recognition (OCR)	—Unverified
From Training-Free to Adaptive: Empirical Insights into MLLMs' Understanding of Detection Information	Jan 31, 2024	Hallucinationobject-detection	—Unverified
Improving OCR Quality in 19th Century Historical Documents Using a Combined Machine Learning Based Approach	Jan 15, 2024	Optical Character Recognition (OCR)	—Unverified
Efficient Multi-domain Text Recognition Deep Neural Network Parameterization with Residual Adapters	Jan 1, 2024	Multi-Task LearningOptical Character Recognition	CodeCode Available
Bidirectional Trained Tree-Structured Decoder for Handwritten Mathematical Expression Recognition	Dec 31, 2023	DecoderLanguage Modeling	—Unverified
Chaurah: A Smart Raspberry Pi based Parking System	Dec 28, 2023	Optical Character RecognitionOptical Character Recognition (OCR)	—Unverified

Show:10 25 50

← PrevPage 10 of 25Next →

All datasets Benchmarking Chinese Text Recognition: Datasets, Baselines, and an Empirical Study VideoDB's OCR Benchmark Public Collection FSNS - Test I2L-140K SUT im2latex-100k

Benchmark Results

#	Model	Metric	Claimed	Verified	Status
1	DTrOCR	Accuracy (%)	89.6	—	Unverified
2	DTrOCR 105M	Accuracy (%)	89.6	—	Unverified
3	MaskOCR-L	Accuracy (%)	82.6	—	Unverified
4	TransOCR	Accuracy (%)	72.8	—	Unverified
5	SRN	Accuracy (%)	65	—	Unverified
6	MORAN	Accuracy (%)	64.3	—	Unverified
7	SEED	Accuracy (%)	61.2	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	GPT-4o	Average Accuracy	76.22	—	Unverified
2	Gemini-1.5 Pro	Average Accuracy	76.13	—	Unverified
3	Claude-3 Sonnet	Average Accuracy	67.71	—	Unverified
4	RapidOCR	Average Accuracy	56.98	—	Unverified
5	EasyOCR	Average Accuracy	49.3	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	STREET	Sequence error	27.54	—	Unverified
2	SEE	Sequence error	22	—	Unverified
3	AttentionOCR_Inception-resnet-v2_Location	Sequence error	15.8	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	I2L-NOPOOL	BLEU	89.09	—	Unverified
2	I2L-STRIPS	BLEU	89	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	Tesseract	Character Error Rate (CER)	0.08	—	Unverified
2	EasyOCR	Character Error Rate (CER)	0.07	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	I2L-STRIPS	BLEU	88.86	—	Unverified