Optical Character Recognition (OCR)

Optical Character Recognition or Optical Character Reader (OCR) is the electronic or mechanical conversion of images of typed, handwritten or printed text into machine-encoded text, whether from a scanned document, a photo of a document, a scene-photo (for example the text on signs and billboards in a landscape photo, license plates in cars...) or from subtitle text superimposed on an image (for example: from a television broadcast)

Papers

Recently Added Most Hyped Most Active Needs Verification Most Verified

Showing 501–550 of 1209 papers

Title	Date	Tasks	Status
Advancements and Challenges in Arabic Optical Character Recognition: A Comprehensive Survey	Dec 19, 2023	ArticlesOptical Character Recognition	—Unverified
TDeLTA: A Light-weight and Robust Table Detection Method based on Learning Text Arrangement	Dec 18, 2023	Optical Character Recognition (OCR)Table Detection	—Unverified
Information Extraction from Unstructured data using Augmented-AI and Computer Vision	Dec 15, 2023	Optical Character Recognition (OCR)	—Unverified
Polar-Doc: One-Stage Document Dewarping with Multi-Scope Constraints under Polar Representation	Dec 13, 2023	Optical Character Recognition (OCR)	—Unverified
Multimodal Sentiment Analysis: Perceived vs Induced Sentiments	Dec 12, 2023	Multimodal Sentiment AnalysisOptical Character Recognition (OCR)	—Unverified
UPOCR: Towards Unified Pixel-Level OCR Interface	Dec 5, 2023	DecoderOptical Character Recognition	—Unverified
Enhancing Vehicle Entrance and Parking Management: Deep Learning Solutions for Efficiency and Security	Dec 5, 2023	Face DetectionLicense Plate Recognition	—Unverified
Pipeline Enabling Zero-shot Classification for Bangla Handwritten Grapheme	Dec 1, 2023	Bangla Text DetectionClassification	—Unverified
Vulnerability Analysis of Transformer-based Optical Character Recognition to Adversarial Attacks	Nov 28, 2023	Adversarial AttackOptical Character Recognition	—Unverified
Automatic Recognition of Learning Resource Category in a Digital Library	Nov 28, 2023	document-image-classificationDocument Image Classification	CodeCode Available
Optimization of Image Processing Algorithms for Character Recognition in Cultural Typewritten Documents	Nov 27, 2023	Optical Character RecognitionOptical Character Recognition (OCR)	CodeCode Available
SUT: a new multi-purpose synthetic dataset for Farsi document image analysis	Nov 27, 2023	Document Classificationdocument-image-classification	CodeCode Available
Similar Document Template Matching Algorithm	Nov 21, 2023	Fraud DetectionOptical Character Recognition (OCR)	—Unverified
ChemScraper: Leveraging PDF Graphics Instructions for Molecular Diagram Parsing	Nov 20, 2023	Optical Character RecognitionOptical Character Recognition (OCR)	CodeCode Available
DocPedia: Unleashing the Power of Large Multimodal Model in the Frequency Domain for Versatile Document Understanding	Nov 20, 2023	document understandingLanguage Modeling	—Unverified
Efficient End-to-End Visual Document Understanding with Rationale Distillation	Nov 16, 2023	document understandingImage to text	—Unverified
DECDM: Document Enhancement using Cycle-Consistent Diffusion Models	Nov 16, 2023	Data AugmentationDenoising	—Unverified
Multiple-Question Multiple-Answer Text-VQA	Nov 15, 2023	DecoderDenoising	—Unverified
Reading Between the Mud: A Challenging Motorcycle Racer Number Dataset	Nov 14, 2023	Optical Character RecognitionOptical Character Recognition (OCR)	CodeCode Available
What Large Language Models Bring to Text-rich VQA?	Nov 13, 2023	Image ComprehensionOptical Character Recognition (OCR)	—Unverified
DONUT-hole: DONUT Sparsification by Harnessing Knowledge and Optimizing Learning Efficiency	Nov 9, 2023	document understandingKey Information Extraction	—Unverified
On Manipulating Scene Text in the Wild with Diffusion Models	Nov 1, 2023	Optical Character RecognitionOptical Character Recognition (OCR)	CodeCode Available
DCQA: Document-Level Chart Question Answering towards Complex Reasoning and Common-Sense Understanding	Oct 29, 2023	Answer GenerationChart Question Answering	CodeCode Available
PHD: Pixel-Based Language Modeling of Historical Documents	Oct 22, 2023	Language ModelingLanguage Modelling	CodeCode Available
MultiCoNER v2: a Large Multilingual dataset for Fine-grained and Noisy Named Entity Recognition	Oct 20, 2023	named-entity-recognitionNamed Entity Recognition	—Unverified
DocXChain: A Powerful Open-Source Toolchain for Document Parsing and Beyond	Oct 19, 2023	Document AIDocument Layout Analysis	—Unverified
EfficientOCR: An Extensible, Open-Source Package for Efficiently Digitizing World Knowledge	Oct 16, 2023	Image RetrievalLanguage Modeling	—Unverified
Towards reducing hallucination in extracting information from financial reports using Large Language Models	Oct 16, 2023	HallucinationOptical Character Recognition	—Unverified
Exploring Sparse Spatial Relation in Graph Inference for Text-Based VQA	Oct 13, 2023	Graph LearningObject	—Unverified
Invisible Threats: Backdoor Attack in OCR Systems	Oct 12, 2023	Backdoor AttackOptical Character Recognition	—Unverified
Solution for SMART-101 Challenge of ICCV Multi-modal Algorithmic Reasoning Task 2023	Oct 10, 2023	Decoderobject-detection	—Unverified
Constructing Image-Text Pair Dataset from Books	Oct 3, 2023	Image-text RetrievalOptical Character Recognition (OCR)	—Unverified
Comprehensive Overview of Named Entity Recognition: Models, Domain-Specific Applications and Challenges	Sep 25, 2023	named-entity-recognitionNamed Entity Recognition	—Unverified
Order-preserving Consistency Regularization for Domain Adaptation and Generalization	Sep 23, 2023	Data AugmentationDomain Adaptation	CodeCode Available
STEP -- Towards Structured Scene-Text Spotting	Sep 5, 2023	Optical Character Recognition (OCR)Scene Text Detection	CodeCode Available
Bengali Document Layout Analysis -- A YOLOV8 Based Ensembling Approach	Sep 2, 2023	Data AugmentationDocument Layout Analysis	—Unverified
Separate and Locate: Rethink the Text in Text-based Visual Question Answering	Aug 31, 2023	Optical Character Recognition (OCR)Position	CodeCode Available
Enhancing OCR Performance through Post-OCR Models: Adopting Glyph Embedding for Improved Correction	Aug 29, 2023	Optical Character Recognition (OCR)	—Unverified
Vision Grid Transformer for Document Layout Analysis	Aug 29, 2023	Document AIDocument Layout Analysis	—Unverified
Optimal Projections for Discriminative Dictionary Learning using the JL-lemma	Aug 27, 2023	Dictionary LearningDimensionality Reduction	CodeCode Available
Bengali Document Layout Analysis with Detectron2	Aug 26, 2023	Data AugmentationDocument Layout Analysis	—Unverified
DISGO: Automatic End-to-End Evaluation for Scene Text OCR	Aug 25, 2023	Machine TranslationOptical Character Recognition	—Unverified
American Stories: A Large-Scale Structured Text Dataset of Historical U.S. Newspapers	Aug 24, 2023	ArticlesLanguage Modeling	—Unverified
CNN based Cuneiform Sign Detection Learned from Annotated 3D Renderings and Mapped Photographs with Illumination Augmentation	Aug 22, 2023	Optical Character Recognition (OCR)	—Unverified
OCR Language Models with Custom Vocabularies	Aug 18, 2023	DecoderLanguage Modeling	—Unverified
FashionLOGO: Prompting Multimodal Large Language Models for Fashion Logo Embeddings	Aug 17, 2023	Image RetrievalLogo Recognition	CodeCode Available
Training BERT Models to Carry Over a Coding System Developed on One Corpus to Another	Aug 7, 2023	Domain AdaptationOptical Character Recognition (OCR)	—Unverified
Making the V in Text-VQA Matter	Aug 1, 2023	Optical Character Recognition (OCR)TextVQA	—Unverified
Toward Zero-shot Character Recognition: A Gold Standard Dataset with Radical-level Annotations	Aug 1, 2023	DenoisingImage Denoising	—Unverified
Optimizing the Neural Network Training for OCR Error Correction of Historical Hebrew Texts	Jul 30, 2023	Optical Character RecognitionOptical Character Recognition (OCR)	—Unverified

Show:10 25 50

← PrevPage 11 of 25Next →

All datasets Benchmarking Chinese Text Recognition: Datasets, Baselines, and an Empirical Study VideoDB's OCR Benchmark Public Collection FSNS - Test I2L-140K SUT im2latex-100k

Benchmark Results

#	Model	Metric	Claimed	Verified	Status
1	DTrOCR	Accuracy (%)	89.6	—	Unverified
2	DTrOCR 105M	Accuracy (%)	89.6	—	Unverified
3	MaskOCR-L	Accuracy (%)	82.6	—	Unverified
4	TransOCR	Accuracy (%)	72.8	—	Unverified
5	SRN	Accuracy (%)	65	—	Unverified
6	MORAN	Accuracy (%)	64.3	—	Unverified
7	SEED	Accuracy (%)	61.2	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	GPT-4o	Average Accuracy	76.22	—	Unverified
2	Gemini-1.5 Pro	Average Accuracy	76.13	—	Unverified
3	Claude-3 Sonnet	Average Accuracy	67.71	—	Unverified
4	RapidOCR	Average Accuracy	56.98	—	Unverified
5	EasyOCR	Average Accuracy	49.3	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	STREET	Sequence error	27.54	—	Unverified
2	SEE	Sequence error	22	—	Unverified
3	AttentionOCR_Inception-resnet-v2_Location	Sequence error	15.8	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	I2L-NOPOOL	BLEU	89.09	—	Unverified
2	I2L-STRIPS	BLEU	89	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	Tesseract	Character Error Rate (CER)	0.08	—	Unverified
2	EasyOCR	Character Error Rate (CER)	0.07	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	I2L-STRIPS	BLEU	88.86	—	Unverified