Optical Character Recognition (OCR)

Optical Character Recognition or Optical Character Reader (OCR) is the electronic or mechanical conversion of images of typed, handwritten or printed text into machine-encoded text, whether from a scanned document, a photo of a document, a scene-photo (for example the text on signs and billboards in a landscape photo, license plates in cars...) or from subtitle text superimposed on an image (for example: from a television broadcast)

Papers

Recently Added Most Hyped Most Active Needs Verification Most Verified

Showing 151–200 of 1209 papers

Title	Date	Tasks	Status	Hype
RoundTripOCR: A Data Generation Technique for Enhancing Post-OCR Error Correction in Low-Resource Devanagari Languages	Dec 14, 2024	Machine TranslationOptical Character Recognition	CodeCode Available	0
Advancing Vehicle Plate Recognition: Multitasking Visual Language Models with VehiclePaliGemma	Dec 14, 2024	GPULicense Plate Recognition	—Unverified	0
Enhancement of text recognition for hanja handwritten documents of Ancient Korea	Dec 14, 2024	Data Augmentationobject-detection	—Unverified	0
One Filter to Deploy Them All: Robust Safety for Quadrupedal Navigation in Unknown Environments	Dec 13, 2024	AllOptical Character Recognition (OCR)	—Unverified	0
AI Adoption to Combat Financial Crime: Study on Natural Language Processing in Adverse Media Screening of Financial Services in English and Bangla multilingual interpretation	Dec 12, 2024	Optical Character Recognition (OCR)	—Unverified	0
DocVLM: Make Your VLM an Efficient Reader	Dec 11, 2024	document understandingOptical Character Recognition (OCR)	—Unverified	0
DocSum: Domain-Adaptive Pre-training for Document Abstractive Summarization	Dec 11, 2024	Abstractive Text SummarizationDecision Making	—Unverified	0
TACO: Learning Multi-modal Action Models with Synthetic Chains-of-Thought-and-Action	Dec 7, 2024	Depth EstimationMathematical Reasoning	CodeCode Available	2
Verb Mirage: Unveiling and Assessing Verb Concept Hallucinations in Multimodal Large Language Models	Dec 6, 2024	HallucinationOptical Character Recognition (OCR)	—Unverified	0
Aligned Music Notation and Lyrics Transcription	Dec 5, 2024	Language ModelingLanguage Modelling	CodeCode Available	0
Text Change Detection in Multilingual Documents Using Image Comparison	Dec 5, 2024	BinarizationChange Detection	—Unverified	0
SynFinTabs: A Dataset of Synthetic Financial Tables for Information and Table Extraction	Dec 5, 2024	ArticlesDataset Generation	CodeCode Available	0
Florence-VL: Enhancing Vision-Language Models with Generative Vision Encoder and Depth-Breadth Fusion	Dec 5, 2024	Contrastive LearningHallucination	CodeCode Available	3
PaliGemma 2: A Family of Versatile VLMs for Transfer	Dec 4, 2024	Language ModelingLanguage Modelling	CodeCode Available	3
CC-OCR: A Comprehensive and Challenging OCR Benchmark for Evaluating Large Multimodal Models in Literacy	Dec 3, 2024	HallucinationKey Information Extraction	—Unverified	0
OCR Hinders RAG: Evaluating the Cascading Impact of OCR on Retrieval-Augmented Generation	Dec 3, 2024	Optical Character RecognitionOptical Character Recognition (OCR)	CodeCode Available	2
Arabic Handwritten Document OCR Solution with Binarization and Adaptive Scale Fusion Detection	Dec 2, 2024	BinarizationOptical Character Recognition (OCR)	—Unverified	0
TextSSR: Diffusion-based Data Synthesis for Scene Text Recognition	Dec 2, 2024	Image GenerationOptical Character Recognition (OCR)	CodeCode Available	2
DLaVA: Document Language and Vision Assistant for Answer Localization with Enhanced Interpretability and Trustworthiness	Nov 29, 2024	Optical Character Recognition (OCR)Question Answering	CodeCode Available	0
VARCO-VISION: Expanding Frontiers in Korean Vision-Language Models	Nov 28, 2024	Language ModelingLanguage Modelling	—Unverified	0
Beyond Logit Lens: Contextual Embeddings for Robust Hallucination Detection & Grounding in VLMs	Nov 28, 2024	AttributeHallucination	—Unverified	0
SVTRv2: CTC Beats Encoder-Decoder Models in Scene Text Recognition	Nov 24, 2024	DecoderOptical Character Recognition (OCR)	—Unverified	0
Arabic-Nougat: Fine-Tuning Vision Transformers for Arabic OCR and Markdown Extraction	Nov 19, 2024	document understandingOptical Character Recognition (OCR)	CodeCode Available	2
Towards Accessible Learning: Deep Learning-Based Potential Dysgraphia Detection and OCR for Potentially Dysgraphic Handwriting	Nov 18, 2024	DiagnosticOptical Character Recognition	—Unverified	0
Awaker2.5-VL: Stably Scaling MLLMs with Parameter-Efficient Mixture of Experts	Nov 16, 2024	Mixture-of-ExpertsOptical Character Recognition (OCR)	CodeCode Available	1
DriveThru: a Document Extraction Platform and Benchmark Datasets for Indonesian Local Language Archives	Nov 14, 2024	Optical Character RecognitionOptical Character Recognition (OCR)	CodeCode Available	0
Is Cognition consistent with Perception? Assessing and Mitigating Multimodal Knowledge Conflicts in Document Understanding	Nov 12, 2024	document understandingOptical Character Recognition (OCR)	—Unverified	0
Veri-Car: Towards Open-world Vehicle Information Retrieval	Nov 11, 2024	Information RetrievalLicense Plate Detection	—Unverified	0
Hierarchical Visual Feature Aggregation for OCR-Free Document Understanding	Nov 8, 2024	document understandingOptical Character Recognition (OCR)	—Unverified	0
NeKo: Toward Post Recognition Generative Correction Large Language Models with Task-Oriented Experts	Nov 8, 2024	Mixture-of-ExpertsOptical Character Recognition (OCR)	—Unverified	0
M3DocRAG: Multi-modal Retrieval is What You Need for Multi-page Multi-document Understanding	Nov 7, 2024	document understandingOptical Character Recognition	—Unverified	0
TAP-VL: Text Layout-Aware Pre-training for Enriched Vision-Language Models	Nov 7, 2024	Optical Character RecognitionOptical Character Recognition (OCR)	—Unverified	0
Out-of-Distribution Recovery with Object-Centric Keypoint Inverse Policy for Visuomotor Imitation Learning	Nov 5, 2024	Continual LearningImitation Learning	—Unverified	0
HIP: Hierarchical Point Modeling and Pre-training for Visual Information Extraction	Nov 2, 2024	Image ReconstructionOptical Character Recognition (OCR)	—Unverified	0
Handwriting Recognition in Historical Documents with Multimodal LLM	Oct 31, 2024	Handwriting RecognitionOptical Character Recognition	—Unverified	0
Toxicity of the Commons: Curating Open-Source Pre-Training Data	Oct 29, 2024	Optical Character RecognitionOptical Character Recognition (OCR)	CodeCode Available	1
Are VLMs Really Blind	Oct 29, 2024	Language ModelingLanguage Modelling	CodeCode Available	0
Structured Analysis and Comparison of Alphabets in Historical Handwritten Ciphers	Oct 29, 2024	CryptanalysisOptical Character Recognition (OCR)	—Unverified	0
MMDocBench: Benchmarking Large Vision-Language Models for Fine-Grained Visual Document Understanding	Oct 25, 2024	Benchmarkingdocument understanding	—Unverified	0
Towards Visual Text Design Transfer Across Languages	Oct 24, 2024	Image GenerationOptical Character Recognition (OCR)	—Unverified	0
Harnessing Webpage UIs for Text-Rich Visual Understanding	Oct 17, 2024	document understandingOptical Character Recognition (OCR)	—Unverified	0
Reference-Based Post-OCR Processing with LLM for Diacritic Languages	Oct 17, 2024	Optical Character Recognition (OCR)	—Unverified	0
LEGAL-UQA: A Low-Resource Urdu-English Dataset for Legal Question Answering	Oct 16, 2024	Optical Character Recognition (OCR)Question Answering	CodeCode Available	0
Comparison of Image Preprocessing Techniques for Vehicle License Plate Recognition Using OCR: Performance and Accuracy Evaluation	Oct 15, 2024	License Plate RecognitionOptical Character Recognition	—Unverified	0
Enhancing Assamese NLP Capabilities: Introducing a Centralized Dataset Repository	Oct 15, 2024	DiversityMachine Translation	CodeCode Available	0
ReLayout: Towards Real-World Document Understanding via Layout-enhanced Pre-training	Oct 14, 2024	document understandingOptical Character Recognition (OCR)	—Unverified	0
TextMaster: Universal Controllable Text Edit	Oct 13, 2024	Optical Character Recognition (OCR)Style Transfer	—Unverified	0
Stratified Domain Adaptation: A Progressive Self-Training Approach for Scene Text Recognition	Oct 13, 2024	Domain AdaptationOptical Character Recognition (OCR)	CodeCode Available	1
MIRAGE: Multimodal Identification and Recognition of Annotations in Indian General Prescriptions	Oct 13, 2024	Handwriting RecognitionOptical Character Recognition	—Unverified	0
Unraveling Movie Genres through Cross-Attention Fusion of Bi-Modal Synergy of Poster	Oct 12, 2024	Genre classificationMarketing	—Unverified	0

Show:10 25 50

← PrevPage 4 of 25Next →

All datasets Benchmarking Chinese Text Recognition: Datasets, Baselines, and an Empirical Study VideoDB's OCR Benchmark Public Collection FSNS - Test I2L-140K SUT im2latex-100k

Benchmark Results

#	Model	Metric	Claimed	Verified	Status
1	DTrOCR	Accuracy (%)	89.6	—	Unverified
2	DTrOCR 105M	Accuracy (%)	89.6	—	Unverified
3	MaskOCR-L	Accuracy (%)	82.6	—	Unverified
4	TransOCR	Accuracy (%)	72.8	—	Unverified
5	SRN	Accuracy (%)	65	—	Unverified
6	MORAN	Accuracy (%)	64.3	—	Unverified
7	SEED	Accuracy (%)	61.2	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	GPT-4o	Average Accuracy	76.22	—	Unverified
2	Gemini-1.5 Pro	Average Accuracy	76.13	—	Unverified
3	Claude-3 Sonnet	Average Accuracy	67.71	—	Unverified
4	RapidOCR	Average Accuracy	56.98	—	Unverified
5	EasyOCR	Average Accuracy	49.3	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	STREET	Sequence error	27.54	—	Unverified
2	SEE	Sequence error	22	—	Unverified
3	AttentionOCR_Inception-resnet-v2_Location	Sequence error	15.8	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	I2L-NOPOOL	BLEU	89.09	—	Unverified
2	I2L-STRIPS	BLEU	89	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	Tesseract	Character Error Rate (CER)	0.08	—	Unverified
2	EasyOCR	Character Error Rate (CER)	0.07	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	I2L-STRIPS	BLEU	88.86	—	Unverified