Optical Character Recognition (OCR)

Optical Character Recognition or Optical Character Reader (OCR) is the electronic or mechanical conversion of images of typed, handwritten or printed text into machine-encoded text, whether from a scanned document, a photo of a document, a scene-photo (for example the text on signs and billboards in a landscape photo, license plates in cars...) or from subtitle text superimposed on an image (for example: from a television broadcast)

Papers

Recently Added Most Hyped Most Active Needs Verification Most Verified

Showing 251–300 of 1209 papers

Title	Date	Tasks	Status	Hype
ChatSchema: A pipeline of extracting structured information with Large Multimodal Models based on schema	Jul 26, 2024	Optical Character RecognitionOptical Character Recognition (OCR)	—Unverified	0
VILA^2: VILA Augmented VILA	Jul 24, 2024	HallucinationOptical Character Recognition (OCR)	—Unverified	0
PLayerTV: Advanced Player Tracking and Identification for Automatic Soccer Highlight Clips	Jul 22, 2024	object-detectionObject Detection	—Unverified	0
Refining Corpora from a Model Calibration Perspective for Chinese Spelling Correction	Jul 22, 2024	Data AugmentationOptical Character Recognition (OCR)	—Unverified	0
Braille-to-Speech Generator: Audio Generation Based on Joint Fine-Tuning of CLIP and Fastspeech2	Jul 19, 2024	Audio GenerationAudio Synthesis	—Unverified	0
Qalam : A Multimodal LLM for Arabic Optical Character and Handwriting Recognition	Jul 18, 2024	DecoderHandwriting Recognition	—Unverified	0
VisFocus: Prompt-Guided Vision Encoders for OCR-Free Dense Document Understanding	Jul 17, 2024	document understandingOptical Character Recognition (OCR)	CodeCode Available	1
Spanish TrOCR: Leveraging Transfer Learning for Language Adaptation	Jul 9, 2024	DecoderImage Generation	CodeCode Available	0
Resolving Sentiment Discrepancy for Multimodal Sentiment Detection via Semantics Completion and Decomposition	Jul 9, 2024	Contrastive LearningOptical Character Recognition (OCR)	—Unverified	0
High-Throughput Phenotyping using Computer Vision and Machine Learning	Jul 8, 2024	Image SegmentationOptical Character Recognition	CodeCode Available	0
Semantic Segmentation for Real-World and Synthetic Vehicle's Forward-Facing Camera Images	Jul 7, 2024	Domain AdaptationOptical Character Recognition (OCR)	—Unverified	0
FlowLearn: Evaluating Large Vision-Language Models on Flowchart Understanding	Jul 6, 2024	Optical Character Recognition (OCR)Visual Question Answering (VQA)	CodeCode Available	1
Optimizing Nepali PDF Extraction: A Comparative Study of Parser and OCR Technologies	Jul 5, 2024	Optical Character RecognitionOptical Character Recognition (OCR)	CodeCode Available	0
Rethinking Visual Prompting for Multimodal Large Language Models with External Knowledge	Jul 5, 2024	Instance SegmentationOptical Character Recognition (OCR)	—Unverified	0
Historical Ink: 19th Century Latin American Spanish Newspaper Corpus with LLM OCR Correction	Jul 4, 2024	Language ModelingLanguage Modelling	CodeCode Available	0
Proposal Report for the 2nd SciCAP Competition 2024	Jul 2, 2024	Document SummarizationOptical Character Recognition (OCR)	—Unverified	0
A Bounding Box is Worth One Token: Interleaving Layout and Text in a Large Language Model for Document Understanding	Jul 2, 2024	document understandingKey Information Extraction	CodeCode Available	2
MMLongBench-Doc: Benchmarking Long-context Document Understanding with Visualizations	Jul 1, 2024	Benchmarkingdocument understanding	CodeCode Available	2
Mind the Gap: Analyzing Lacunae with Transformer-Based Transcription	Jun 28, 2024	Optical Character RecognitionOptical Character Recognition (OCR)	—Unverified	0
DocParseNet: Advanced Semantic Segmentation and OCR Embeddings for Efficient Scanned Document Annotation	Jun 25, 2024	Computational EfficiencyOptical Character Recognition (OCR)	CodeCode Available	0
MixTex: Unambiguous Recognition Should Not Rely Solely on Real Data	Jun 24, 2024	Data AugmentationOptical Character Recognition (OCR)	CodeCode Available	5
News Deja Vu: Connecting Past and Present with Semantic Search	Jun 21, 2024	ArticlesOptical Character Recognition (OCR)	—Unverified	0
GUI Action Narrator: Where and When Did That Action Take Place?	Jun 19, 2024	Optical Character Recognition (OCR)Video Captioning	—Unverified	0
Unifying Multimodal Retrieval via Document Screenshot Embedding	Jun 17, 2024	Language ModellingNatural Questions	—Unverified	0
GUICourse: From General Vision Language Models to Versatile GUI Agents	Jun 17, 2024	Natural Language Visual GroundingOptical Character Recognition (OCR)	CodeCode Available	2
OSPC: Detecting Harmful Memes with Large Language Model as a Catalyst	Jun 14, 2024	Image CaptioningLanguage Modeling	—Unverified	0
Enhancing Question Answering on Charts Through Effective Pre-training Tasks	Jun 14, 2024	document understandingOptical Character Recognition (OCR)	—Unverified	0
M3T: A New Benchmark Dataset for Multi-Modal Document-Level Machine Translation	Jun 12, 2024	Document Level Machine TranslationDocument Translation	CodeCode Available	0
Fetch-A-Set: A Large-Scale OCR-Free Benchmark for Historical Document Retrieval	Jun 11, 2024	Image RetrievalImage to text	—Unverified	0
Scaling Automatic Extraction of Pseudocode	Jun 7, 2024	Code GenerationOptical Character Recognition	—Unverified	0
CORU: Comprehensive Post-OCR Parsing and Receipt Understanding Dataset	Jun 6, 2024	object-detectionObject Detection	CodeCode Available	1
Improving Text Generation on Images with Synthetic Captions	Jun 1, 2024	Optical Character Recognition (OCR)Text Generation	—Unverified	0
Towards Unified Multi-granularity Text Detection with Interactive Attention	May 30, 2024	Document Layout AnalysisOptical Character Recognition (OCR)	—Unverified	0
RealitySummary: Exploring On-Demand Mixed Reality Text Summarization and Question Answering using Large Language Models	May 28, 2024	Document EnhancementMixed Reality	—Unverified	0
Notes on Applicability of GPT-4 to Document Understanding	May 28, 2024	document understandingOptical Character Recognition (OCR)	—Unverified	0
Vision Language Models for Spreadsheet Understanding: Challenges and Opportunities	May 25, 2024	Boundary DetectionOptical Character Recognition	—Unverified	0
Focus Anywhere for Fine-grained Multi-page Document Understanding	May 23, 2024	document understandingOptical Character Recognition (OCR)	CodeCode Available	5
Let's Fuse Step by Step: A Generative Fusion Decoding Algorithm with LLMs for Multi-modal Text Recognition	May 23, 2024	Automatic Speech RecognitionAutomatic Speech Recognition (ASR)	CodeCode Available	2
From Text to Pixel: Advancing Long-Context Understanding in MLLMs	May 23, 2024	Language ModelingLanguage Modelling	CodeCode Available	1
Transfer Learning Approach for Railway Technical Map (RTM) Component Identification	May 21, 2024	Managementobject-detection	—Unverified	0
GeoContrastNet: Contrastive Key-Value Edge Learning for Language-Agnostic Document Understanding	May 6, 2024	Contrastive Learningdocument understanding	CodeCode Available	0
Callico: a Versatile Open-Source Document Image Annotation Platform	May 2, 2024	Document Layout AnalysisHTR	—Unverified	0
CREPE: Coordinate-Aware End-to-End Document Parser	May 1, 2024	document understandingOptical Character Recognition (OCR)	—Unverified	0
DELINE8K: A Synthetic Data Pipeline for the Semantic Segmentation of Historical Documents	Apr 30, 2024	8kDiversity	CodeCode Available	0
Multi-Page Document Visual Question Answering using Self-Attention Scoring Mechanism	Apr 29, 2024	document understandingGPU	CodeCode Available	0
ViOCRVQA: Novel Benchmark Dataset and Vision Reader for Visual Question Answering by Understanding Vietnamese Text in Images	Apr 29, 2024	Optical Character RecognitionOptical Character Recognition (OCR)	CodeCode Available	1
How Far Are We to GPT-4V? Closing the Gap to Commercial Multimodal Models with Open-Source Suites	Apr 25, 2024	4kLanguage Modeling	—Unverified	0
Mixed Text Recognition with Efficient Parameter Fine-Tuning and Transformer	Apr 19, 2024	DecoderOptical Character Recognition	—Unverified	0
Improvement in Semantic Address Matching using Natural Language Processing	Apr 17, 2024	Optical Character Recognition (OCR)	—Unverified	0
MathWriting: A Dataset For Handwritten Mathematical Expression Recognition	Apr 16, 2024	FormOptical Character Recognition (OCR)	—Unverified	0

Show:10 25 50

← PrevPage 6 of 25Next →

All datasets Benchmarking Chinese Text Recognition: Datasets, Baselines, and an Empirical Study VideoDB's OCR Benchmark Public Collection FSNS - Test I2L-140K SUT im2latex-100k

Benchmark Results

#	Model	Metric	Claimed	Verified	Status
1	DTrOCR	Accuracy (%)	89.6	—	Unverified
2	DTrOCR 105M	Accuracy (%)	89.6	—	Unverified
3	MaskOCR-L	Accuracy (%)	82.6	—	Unverified
4	TransOCR	Accuracy (%)	72.8	—	Unverified
5	SRN	Accuracy (%)	65	—	Unverified
6	MORAN	Accuracy (%)	64.3	—	Unverified
7	SEED	Accuracy (%)	61.2	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	GPT-4o	Average Accuracy	76.22	—	Unverified
2	Gemini-1.5 Pro	Average Accuracy	76.13	—	Unverified
3	Claude-3 Sonnet	Average Accuracy	67.71	—	Unverified
4	RapidOCR	Average Accuracy	56.98	—	Unverified
5	EasyOCR	Average Accuracy	49.3	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	STREET	Sequence error	27.54	—	Unverified
2	SEE	Sequence error	22	—	Unverified
3	AttentionOCR_Inception-resnet-v2_Location	Sequence error	15.8	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	I2L-NOPOOL	BLEU	89.09	—	Unverified
2	I2L-STRIPS	BLEU	89	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	Tesseract	Character Error Rate (CER)	0.08	—	Unverified
2	EasyOCR	Character Error Rate (CER)	0.07	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	I2L-STRIPS	BLEU	88.86	—	Unverified