Optical Character Recognition (OCR)

Optical Character Recognition or Optical Character Reader (OCR) is the electronic or mechanical conversion of images of typed, handwritten or printed text into machine-encoded text, whether from a scanned document, a photo of a document, a scene-photo (for example the text on signs and billboards in a landscape photo, license plates in cars...) or from subtitle text superimposed on an image (for example: from a television broadcast)

Papers

Recently Added Most Hyped Most Active Needs Verification Most Verified

Showing 426–450 of 1209 papers

Title	Date	Tasks	Status
Braille-to-Speech Generator: Audio Generation Based on Joint Fine-Tuning of CLIP and Fastspeech2	Jul 19, 2024	Audio GenerationAudio Synthesis	—Unverified
Qalam : A Multimodal LLM for Arabic Optical Character and Handwriting Recognition	Jul 18, 2024	DecoderHandwriting Recognition	—Unverified
Spanish TrOCR: Leveraging Transfer Learning for Language Adaptation	Jul 9, 2024	DecoderImage Generation	CodeCode Available
Resolving Sentiment Discrepancy for Multimodal Sentiment Detection via Semantics Completion and Decomposition	Jul 9, 2024	Contrastive LearningOptical Character Recognition (OCR)	—Unverified
High-Throughput Phenotyping using Computer Vision and Machine Learning	Jul 8, 2024	Image SegmentationOptical Character Recognition	CodeCode Available
Semantic Segmentation for Real-World and Synthetic Vehicle's Forward-Facing Camera Images	Jul 7, 2024	Domain AdaptationOptical Character Recognition (OCR)	—Unverified
Rethinking Visual Prompting for Multimodal Large Language Models with External Knowledge	Jul 5, 2024	Instance SegmentationOptical Character Recognition (OCR)	—Unverified
Optimizing Nepali PDF Extraction: A Comparative Study of Parser and OCR Technologies	Jul 5, 2024	Optical Character RecognitionOptical Character Recognition (OCR)	CodeCode Available
Historical Ink: 19th Century Latin American Spanish Newspaper Corpus with LLM OCR Correction	Jul 4, 2024	Language ModelingLanguage Modelling	CodeCode Available
Proposal Report for the 2nd SciCAP Competition 2024	Jul 2, 2024	Document SummarizationOptical Character Recognition (OCR)	—Unverified
Mind the Gap: Analyzing Lacunae with Transformer-Based Transcription	Jun 28, 2024	Optical Character RecognitionOptical Character Recognition (OCR)	—Unverified
DocParseNet: Advanced Semantic Segmentation and OCR Embeddings for Efficient Scanned Document Annotation	Jun 25, 2024	Computational EfficiencyOptical Character Recognition (OCR)	CodeCode Available
News Deja Vu: Connecting Past and Present with Semantic Search	Jun 21, 2024	ArticlesOptical Character Recognition (OCR)	—Unverified
GUI Action Narrator: Where and When Did That Action Take Place?	Jun 19, 2024	Optical Character Recognition (OCR)Video Captioning	—Unverified
Unifying Multimodal Retrieval via Document Screenshot Embedding	Jun 17, 2024	Language ModellingNatural Questions	—Unverified
Enhancing Question Answering on Charts Through Effective Pre-training Tasks	Jun 14, 2024	document understandingOptical Character Recognition (OCR)	—Unverified
OSPC: Detecting Harmful Memes with Large Language Model as a Catalyst	Jun 14, 2024	Image CaptioningLanguage Modeling	—Unverified
M3T: A New Benchmark Dataset for Multi-Modal Document-Level Machine Translation	Jun 12, 2024	Document Level Machine TranslationDocument Translation	CodeCode Available
Fetch-A-Set: A Large-Scale OCR-Free Benchmark for Historical Document Retrieval	Jun 11, 2024	Image RetrievalImage to text	—Unverified
Scaling Automatic Extraction of Pseudocode	Jun 7, 2024	Code GenerationOptical Character Recognition	—Unverified
Improving Text Generation on Images with Synthetic Captions	Jun 1, 2024	Optical Character Recognition (OCR)Text Generation	—Unverified
Towards Unified Multi-granularity Text Detection with Interactive Attention	May 30, 2024	Document Layout AnalysisOptical Character Recognition (OCR)	—Unverified
Notes on Applicability of GPT-4 to Document Understanding	May 28, 2024	document understandingOptical Character Recognition (OCR)	—Unverified
RealitySummary: Exploring On-Demand Mixed Reality Text Summarization and Question Answering using Large Language Models	May 28, 2024	Document EnhancementMixed Reality	—Unverified
Vision Language Models for Spreadsheet Understanding: Challenges and Opportunities	May 25, 2024	Boundary DetectionOptical Character Recognition	—Unverified

Show:10 25 50

← PrevPage 18 of 49Next →

All datasets Benchmarking Chinese Text Recognition: Datasets, Baselines, and an Empirical Study VideoDB's OCR Benchmark Public Collection FSNS - Test I2L-140K SUT im2latex-100k

Benchmark Results

#	Model	Metric	Claimed	Verified	Status
1	DTrOCR	Accuracy (%)	89.6	—	Unverified
2	DTrOCR 105M	Accuracy (%)	89.6	—	Unverified
3	MaskOCR-L	Accuracy (%)	82.6	—	Unverified
4	TransOCR	Accuracy (%)	72.8	—	Unverified
5	SRN	Accuracy (%)	65	—	Unverified
6	MORAN	Accuracy (%)	64.3	—	Unverified
7	SEED	Accuracy (%)	61.2	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	GPT-4o	Average Accuracy	76.22	—	Unverified
2	Gemini-1.5 Pro	Average Accuracy	76.13	—	Unverified
3	Claude-3 Sonnet	Average Accuracy	67.71	—	Unverified
4	RapidOCR	Average Accuracy	56.98	—	Unverified
5	EasyOCR	Average Accuracy	49.3	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	STREET	Sequence error	27.54	—	Unverified
2	SEE	Sequence error	22	—	Unverified
3	AttentionOCR_Inception-resnet-v2_Location	Sequence error	15.8	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	I2L-NOPOOL	BLEU	89.09	—	Unverified
2	I2L-STRIPS	BLEU	89	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	Tesseract	Character Error Rate (CER)	0.08	—	Unverified
2	EasyOCR	Character Error Rate (CER)	0.07	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	I2L-STRIPS	BLEU	88.86	—	Unverified