Optical Character Recognition (OCR)

Optical Character Recognition or Optical Character Reader (OCR) is the electronic or mechanical conversion of images of typed, handwritten or printed text into machine-encoded text, whether from a scanned document, a photo of a document, a scene-photo (for example the text on signs and billboards in a landscape photo, license plates in cars...) or from subtitle text superimposed on an image (for example: from a television broadcast)

Papers

Recently Added Most Hyped Most Active Needs Verification Most Verified

Showing 401–450 of 1209 papers

Title	Date	Tasks	Status
NVLM: Open Frontier-Class Multimodal LLMs	Sep 17, 2024	MathMultimodal Reasoning	—Unverified
Computer Vision Intelligence Test Modeling and Generation: A Case Study on Smart OCR	Sep 14, 2024	3D ClassificationOptical Character Recognition	—Unverified
PdfTable: A Unified Toolkit for Deep Learning-Based Table Extraction	Sep 8, 2024	Deep LearningDocument Layout Analysis	—Unverified
UNIT: Unifying Image and Text Recognition in One Vision Encoder	Sep 6, 2024	DecoderOptical Character Recognition (OCR)	—Unverified
Confidence-Aware Document OCR Error Detection	Sep 6, 2024	Optical Character RecognitionOptical Character Recognition (OCR)	—Unverified
mPLUG-DocOwl2: High-resolution Compressing for OCR-free Multi-page Document Understanding	Sep 5, 2024	document understandingGPU	—Unverified
Post-OCR Text Correction for Bulgarian Historical Documents	Aug 31, 2024	Optical Character RecognitionOptical Character Recognition (OCR)	CodeCode Available
CLOCR-C: Context Leveraging OCR Correction with Pre-trained Language Models	Aug 30, 2024	Articlesnamed-entity-recognition	CodeCode Available
ChartEye: A Deep Learning Framework for Chart Information Extraction	Aug 28, 2024	Chart UnderstandingClassification	—Unverified
Can Visual Language Models Replace OCR-Based Visual Question Answering Pipelines in Production? A Case Study in Retail	Aug 28, 2024	Optical Character RecognitionOptical Character Recognition (OCR)	—Unverified
A Permuted Autoregressive Approach to Word-Level Recognition for Urdu Digital Text	Aug 27, 2024	Data AugmentationOptical Character Recognition	—Unverified
Knowledge Discovery in Optical Music Recognition: Enhancing Information Retrieval with Instance Segmentation	Aug 27, 2024	Information RetrievalInstance Segmentation	—Unverified
Platypus: A Generalized Specialist Model for Reading Text in Various Forms	Aug 27, 2024	Handwritten Text RecognitionOptical Character Recognition (OCR)	—Unverified
FastTextSpotter: A High-Efficiency Transformer for Multilingual Scene Text Spotting	Aug 27, 2024	BenchmarkingDecoder	CodeCode Available
MMR: Evaluating Reading Ability of Large Multimodal Models	Aug 26, 2024	Font RecognitionMMR total	—Unverified
Ancient but Digitized: Developing Handwritten Optical Character Recognition for East Syriac Script Through Creating KHAMIS Dataset	Aug 24, 2024	Optical Character RecognitionOptical Character Recognition (OCR)	—Unverified
Vintern-1B: An Efficient Multimodal Large Language Model for Vietnamese	Aug 22, 2024	Language ModelingLanguage Modelling	—Unverified
Large Language Models for Page Stream Segmentation	Aug 21, 2024	DecoderOptical Character Recognition	—Unverified
Handwritten Code Recognition for Pen-and-Paper CS Education	Aug 7, 2024	HallucinationLanguage Modeling	CodeCode Available
Advancing Post-OCR Correction: A Comparative Study of Synthetic Data	Aug 5, 2024	Optical Character Recognition (OCR)Synthetic Data Generation	CodeCode Available
PIXELMOD: Improving Soft Moderation of Visual Misleading Information on Twitter	Jul 30, 2024	MisinformationOptical Character Recognition	CodeCode Available
ChatSchema: A pipeline of extracting structured information with Large Multimodal Models based on schema	Jul 26, 2024	Optical Character RecognitionOptical Character Recognition (OCR)	—Unverified
VILA^2: VILA Augmented VILA	Jul 24, 2024	HallucinationOptical Character Recognition (OCR)	—Unverified
Refining Corpora from a Model Calibration Perspective for Chinese Spelling Correction	Jul 22, 2024	Data AugmentationOptical Character Recognition (OCR)	—Unverified
PLayerTV: Advanced Player Tracking and Identification for Automatic Soccer Highlight Clips	Jul 22, 2024	object-detectionObject Detection	—Unverified
Braille-to-Speech Generator: Audio Generation Based on Joint Fine-Tuning of CLIP and Fastspeech2	Jul 19, 2024	Audio GenerationAudio Synthesis	—Unverified
Qalam : A Multimodal LLM for Arabic Optical Character and Handwriting Recognition	Jul 18, 2024	DecoderHandwriting Recognition	—Unverified
Spanish TrOCR: Leveraging Transfer Learning for Language Adaptation	Jul 9, 2024	DecoderImage Generation	CodeCode Available
Resolving Sentiment Discrepancy for Multimodal Sentiment Detection via Semantics Completion and Decomposition	Jul 9, 2024	Contrastive LearningOptical Character Recognition (OCR)	—Unverified
High-Throughput Phenotyping using Computer Vision and Machine Learning	Jul 8, 2024	Image SegmentationOptical Character Recognition	CodeCode Available
Semantic Segmentation for Real-World and Synthetic Vehicle's Forward-Facing Camera Images	Jul 7, 2024	Domain AdaptationOptical Character Recognition (OCR)	—Unverified
Rethinking Visual Prompting for Multimodal Large Language Models with External Knowledge	Jul 5, 2024	Instance SegmentationOptical Character Recognition (OCR)	—Unverified
Optimizing Nepali PDF Extraction: A Comparative Study of Parser and OCR Technologies	Jul 5, 2024	Optical Character RecognitionOptical Character Recognition (OCR)	CodeCode Available
Historical Ink: 19th Century Latin American Spanish Newspaper Corpus with LLM OCR Correction	Jul 4, 2024	Language ModelingLanguage Modelling	CodeCode Available
Proposal Report for the 2nd SciCAP Competition 2024	Jul 2, 2024	Document SummarizationOptical Character Recognition (OCR)	—Unverified
Mind the Gap: Analyzing Lacunae with Transformer-Based Transcription	Jun 28, 2024	Optical Character RecognitionOptical Character Recognition (OCR)	—Unverified
DocParseNet: Advanced Semantic Segmentation and OCR Embeddings for Efficient Scanned Document Annotation	Jun 25, 2024	Computational EfficiencyOptical Character Recognition (OCR)	CodeCode Available
News Deja Vu: Connecting Past and Present with Semantic Search	Jun 21, 2024	ArticlesOptical Character Recognition (OCR)	—Unverified
GUI Action Narrator: Where and When Did That Action Take Place?	Jun 19, 2024	Optical Character Recognition (OCR)Video Captioning	—Unverified
Unifying Multimodal Retrieval via Document Screenshot Embedding	Jun 17, 2024	Language ModellingNatural Questions	—Unverified
Enhancing Question Answering on Charts Through Effective Pre-training Tasks	Jun 14, 2024	document understandingOptical Character Recognition (OCR)	—Unverified
OSPC: Detecting Harmful Memes with Large Language Model as a Catalyst	Jun 14, 2024	Image CaptioningLanguage Modeling	—Unverified
M3T: A New Benchmark Dataset for Multi-Modal Document-Level Machine Translation	Jun 12, 2024	Document Level Machine TranslationDocument Translation	CodeCode Available
Fetch-A-Set: A Large-Scale OCR-Free Benchmark for Historical Document Retrieval	Jun 11, 2024	Image RetrievalImage to text	—Unverified
Scaling Automatic Extraction of Pseudocode	Jun 7, 2024	Code GenerationOptical Character Recognition	—Unverified
Improving Text Generation on Images with Synthetic Captions	Jun 1, 2024	Optical Character Recognition (OCR)Text Generation	—Unverified
Towards Unified Multi-granularity Text Detection with Interactive Attention	May 30, 2024	Document Layout AnalysisOptical Character Recognition (OCR)	—Unverified
Notes on Applicability of GPT-4 to Document Understanding	May 28, 2024	document understandingOptical Character Recognition (OCR)	—Unverified
RealitySummary: Exploring On-Demand Mixed Reality Text Summarization and Question Answering using Large Language Models	May 28, 2024	Document EnhancementMixed Reality	—Unverified
Vision Language Models for Spreadsheet Understanding: Challenges and Opportunities	May 25, 2024	Boundary DetectionOptical Character Recognition	—Unverified

Show:10 25 50

← PrevPage 9 of 25Next →

All datasets Benchmarking Chinese Text Recognition: Datasets, Baselines, and an Empirical Study VideoDB's OCR Benchmark Public Collection FSNS - Test I2L-140K SUT im2latex-100k

Benchmark Results

#	Model	Metric	Claimed	Verified	Status
1	DTrOCR	Accuracy (%)	89.6	—	Unverified
2	DTrOCR 105M	Accuracy (%)	89.6	—	Unverified
3	MaskOCR-L	Accuracy (%)	82.6	—	Unverified
4	TransOCR	Accuracy (%)	72.8	—	Unverified
5	SRN	Accuracy (%)	65	—	Unverified
6	MORAN	Accuracy (%)	64.3	—	Unverified
7	SEED	Accuracy (%)	61.2	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	GPT-4o	Average Accuracy	76.22	—	Unverified
2	Gemini-1.5 Pro	Average Accuracy	76.13	—	Unverified
3	Claude-3 Sonnet	Average Accuracy	67.71	—	Unverified
4	RapidOCR	Average Accuracy	56.98	—	Unverified
5	EasyOCR	Average Accuracy	49.3	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	STREET	Sequence error	27.54	—	Unverified
2	SEE	Sequence error	22	—	Unverified
3	AttentionOCR_Inception-resnet-v2_Location	Sequence error	15.8	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	I2L-NOPOOL	BLEU	89.09	—	Unverified
2	I2L-STRIPS	BLEU	89	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	Tesseract	Character Error Rate (CER)	0.08	—	Unverified
2	EasyOCR	Character Error Rate (CER)	0.07	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	I2L-STRIPS	BLEU	88.86	—	Unverified