Optical Character Recognition (OCR)

Optical Character Recognition or Optical Character Reader (OCR) is the electronic or mechanical conversion of images of typed, handwritten or printed text into machine-encoded text, whether from a scanned document, a photo of a document, a scene-photo (for example the text on signs and billboards in a landscape photo, license plates in cars...) or from subtitle text superimposed on an image (for example: from a television broadcast)

Papers

Recently Added Most Hyped Most Active Needs Verification Most Verified

Showing 301–350 of 1209 papers

Title	Date	Tasks	Status	Hype
MathWriting: A Dataset For Handwritten Mathematical Expression Recognition	Apr 16, 2024	FormOptical Character Recognition (OCR)	—Unverified	0
TC-OCR: TableCraft OCR for Efficient Detection & Recognition of Table Structure & Content	Apr 16, 2024	Information RetrievalKnowledge Graphs	—Unverified	0
Resilience of Large Language Models for Noisy Instructions	Apr 15, 2024	Automatic Speech RecognitionOptical Character Recognition	—Unverified	0
Convolution-based Probability Gradient Loss for Semantic Segmentation	Apr 10, 2024	Optical Character Recognition (OCR)Semantic Segmentation	CodeCode Available	0
Making Old Kurdish Publications Processable by Augmenting Available Optical Character Recognition Engines	Apr 9, 2024	Optical Character RecognitionOptical Character Recognition (OCR)	—Unverified	0
VisualWebBench: How Far Have Multimodal LLMs Evolved in Web Page Understanding and Grounding?	Apr 9, 2024	Optical Character Recognition (OCR)	CodeCode Available	2
NAF-DPM: A Nonlinear Activation-Free Diffusion Probabilistic Model for Document Enhancement	Apr 8, 2024	BinarizationDocument Enhancement	CodeCode Available	2
HAMMR: HierArchical MultiModal React agents for generic VQA	Apr 8, 2024	Optical Character Recognition (OCR)Question Answering	—Unverified	0
Design and Development of a Framework For Stroke-Based Handwritten Gujarati Font Generation	Apr 4, 2024	Font GenerationOptical Character Recognition (OCR)	—Unverified	0
CMULAB: An Open-Source Framework for Training and Deployment of Natural Language Processing Models	Apr 3, 2024	Optical Character Recognition (OCR)speech-recognition	CodeCode Available	1
Optical Text Recognition in Nepali and Bengali: A Transformer-based Approach	Apr 3, 2024	DecoderMachine Translation	—Unverified	0
RealKIE: Five Novel Datasets for Enterprise Key Information Extraction	Mar 29, 2024	Key Information ExtractionOptical Character Recognition (OCR)	—Unverified	0
Draw-and-Understand: Leveraging Visual Prompts to Enable MLLMs to Comprehend What You Want	Mar 29, 2024	Instruction FollowingLanguage Modelling	CodeCode Available	2
ChroniclingAmericaQA: A Large-scale Question Answering Dataset based on Historical American Newspaper Pages	Mar 26, 2024	Machine Reading ComprehensionOptical Character Recognition (OCR)	CodeCode Available	1
SciCapenter: Supporting Caption Composition for Scientific Figures with Machine-Generated Captions and Ratings	Mar 26, 2024	Optical Character Recognition (OCR)	—Unverified	0
The Solution for the ICCV 2023 1st Scientific Figure Captioning Challenge	Mar 26, 2024	Caption GenerationImage Captioning	—Unverified	0
Grammatical vs Spelling Error Correction: An Investigation into the Responsiveness of Transformer-based Language Models using BART and MarianMT	Mar 25, 2024	Optical Character Recognition (OCR)speech-recognition	—Unverified	0
Visually Guided Generative Text-Layout Pre-training for Document Intelligence	Mar 25, 2024	Document Classificationdocument understanding	CodeCode Available	2
Refining Text-to-Image Generation: Towards Accurate Training-Free Glyph-Enhanced Image Generation	Mar 25, 2024	Image GenerationOptical Character Recognition (OCR)	—Unverified	0
PEaCE: A Chemistry-Oriented Dataset for Optical Character Recognition on Scientific Documents	Mar 23, 2024	ArticlesOptical Character Recognition	CodeCode Available	1
Chart-based Reasoning: Transferring Capabilities from LLMs to VLMs	Mar 19, 2024	Chart Question AnsweringOptical Character Recognition (OCR)	—Unverified	0
mPLUG-DocOwl 1.5: Unified Structure Learning for OCR-free Document Understanding	Mar 19, 2024	document understandingOptical Character Recognition (OCR)	—Unverified	0
Financial Table Extraction in Image Documents	Mar 18, 2024	Image SegmentationOptical Character Recognition (OCR)	—Unverified	0
Advancing Multilingual Handwritten Numeral Recognition with Attention-driven Transfer Learning	Mar 18, 2024	Handwritten Digit RecognitionOptical Character Recognition	CodeCode Available	0
OCR is All you need: Importing Multi-Modality into Image-based Defect Detection System	Mar 18, 2024	AllDecision Making	—Unverified	0
Advanced Knowledge Extraction of Physical Design Drawings, Translation and conversion to CAD formats using Deep Learning	Mar 17, 2024	Edge DetectionLine Detection	—Unverified	0
TextBlockV2: Towards Precise-Detection-Free Scene Text Spotting with Pre-trained Language Model	Mar 15, 2024	Language ModelingLanguage Modelling	—Unverified	0
Eyes Closed, Safety On: Protecting Multimodal LLMs via Image-to-Text Transformation	Mar 14, 2024	Image to textOptical Character Recognition (OCR)	—Unverified	0
Adversarial Training with OCR Modality Perturbation for Scene-Text Visual Question Answering	Mar 14, 2024	Optical Character RecognitionOptical Character Recognition (OCR)	CodeCode Available	0
Rich Semantic Knowledge Enhanced Large Language Models for Few-shot Chinese Spell Checking	Mar 13, 2024	Chinese Spell CheckingIn-Context Learning	—Unverified	0
The future of document indexing: GPT and Donut revolutionize table of content processing	Mar 12, 2024	Language ModelingLanguage Modelling	—Unverified	0
Open-Vocabulary Scene Text Recognition via Pseudo-Image Labeling and Margin Loss	Mar 12, 2024	Image InpaintingOptical Character Recognition (OCR)	—Unverified	0
DeepSeek-VL: Towards Real-World Vision-Language Understanding	Mar 8, 2024	ChatbotLanguage Modelling	CodeCode Available	7
TextMonkey: An OCR-Free Large Multimodal Model for Understanding Document	Mar 7, 2024	document understandingKey Information Extraction	CodeCode Available	5
Multimodal Transformer for Comics Text-Cloze	Mar 6, 2024	Language ModelingLanguage Modelling	—Unverified	0
LOCR: Location-Guided Transformer for Optical Character Recognition	Mar 4, 2024	MarketingOptical Character Recognition	—Unverified	0
Large Language Models for Simultaneous Named Entity Extraction and Spelling Correction	Mar 1, 2024	DecoderOptical Character Recognition	—Unverified	0
ODM: A Text-Image Further Alignment Pre-training Approach for Scene Text Detection and Spotting	Mar 1, 2024	Optical Character RecognitionOptical Character Recognition (OCR)	CodeCode Available	1
Advancing Generative Model Evaluation: A Novel Algorithm for Realistic Image Synthesis and Comparison in OCR System	Feb 27, 2024	Image GenerationOptical Character Recognition (OCR)	—Unverified	0
Representing Online Handwriting for Recognition in Large Vision-Language Models	Feb 23, 2024	Handwriting RecognitionOptical Character Recognition	—Unverified	0
Syntactic Language Change in English and German: Metrics, Parsers, and Convergences	Feb 18, 2024	Optical Character Recognition (OCR)Sentence	CodeCode Available	0
TEXTRON: Weakly Supervised Multilingual Text Detection through Data Programming	Feb 15, 2024	Optical Character Recognition (OCR)Text Detection	CodeCode Available	1
Beyond the Mud: Datasets and Benchmarks for Computer Vision in Off-Road Racing	Feb 12, 2024	Optical Character RecognitionOptical Character Recognition (OCR)	—Unverified	0
ClusterTabNet: Supervised clustering method for table detection and table structure recognition	Feb 12, 2024	ClusteringOptical Character Recognition (OCR)	CodeCode Available	1
Segmentation-free Connectionist Temporal Classification loss based OCR Model for Text Captcha Classification	Feb 8, 2024	CAPTCHA DetectionClassification	—Unverified	0
SPHINX-X: Scaling Data and Parameters for a Family of Multi-modal Large Language Models	Feb 8, 2024	BenchmarkingDiversity	CodeCode Available	7
Enhancement of Bengali OCR by Specialized Models and Advanced Techniques for Diverse Document Types	Feb 7, 2024	Optical Character Recognition (OCR)Table Recognition	—Unverified	0
ExTTNet: A Deep Learning Algorithm for Extracting Table Texts from Invoice Images	Feb 3, 2024	Optical Character RecognitionOptical Character Recognition (OCR)	—Unverified	0
From Training-Free to Adaptive: Empirical Insights into MLLMs' Understanding of Detection Information	Jan 31, 2024	Hallucinationobject-detection	—Unverified	0
MouSi: Poly-Visual-Expert Vision-Language Models	Jan 30, 2024	Image SegmentationImage-text matching	CodeCode Available	2

Show:10 25 50

← PrevPage 7 of 25Next →

All datasets Benchmarking Chinese Text Recognition: Datasets, Baselines, and an Empirical Study VideoDB's OCR Benchmark Public Collection FSNS - Test I2L-140K SUT im2latex-100k

Benchmark Results

#	Model	Metric	Claimed	Verified	Status
1	DTrOCR 105M	Accuracy (%)	89.6	—	Unverified
2	DTrOCR	Accuracy (%)	89.6	—	Unverified
3	MaskOCR-L	Accuracy (%)	82.6	—	Unverified
4	TransOCR	Accuracy (%)	72.8	—	Unverified
5	SRN	Accuracy (%)	65	—	Unverified
6	MORAN	Accuracy (%)	64.3	—	Unverified
7	SEED	Accuracy (%)	61.2	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	GPT-4o	Average Accuracy	76.22	—	Unverified
2	Gemini-1.5 Pro	Average Accuracy	76.13	—	Unverified
3	Claude-3 Sonnet	Average Accuracy	67.71	—	Unverified
4	RapidOCR	Average Accuracy	56.98	—	Unverified
5	EasyOCR	Average Accuracy	49.3	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	STREET	Sequence error	27.54	—	Unverified
2	SEE	Sequence error	22	—	Unverified
3	AttentionOCR_Inception-resnet-v2_Location	Sequence error	15.8	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	I2L-NOPOOL	BLEU	89.09	—	Unverified
2	I2L-STRIPS	BLEU	89	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	Tesseract	Character Error Rate (CER)	0.08	—	Unverified
2	EasyOCR	Character Error Rate (CER)	0.07	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	I2L-STRIPS	BLEU	88.86	—	Unverified