Optical Character Recognition

Papers

Recently Added Most Hyped Most Active Needs Verification Most Verified

Showing 1–50 of 526 papers

Title	Date	Tasks	Status	Hype
Seeing the Signs: A Survey of Edge-Deployable OCR Models for Billboard Visibility Analysis	Jul 15, 2025	MarketingOptical Character Recognition	—Unverified	0
A Survey on MLLM-based Visually Rich Document Understanding: Methods, Challenges, and Emerging Trends	Jul 14, 2025	document understandingOptical Character Recognition	—Unverified	0
Logios : An open source Greek Polytonic Optical Character Recognition system	Jun 26, 2025	Optical Character RecognitionOptical Character Recognition (OCR)	—Unverified	0
Unfolding the Past: A Comprehensive Deep Learning Approach to Analyzing Incunabula Pages	Jun 22, 2025	image-classificationImage Classification	—Unverified	0
An accurate and revised version of optical character recognition-based speech synthesis using LabVIEW	Jun 18, 2025	Optical Character RecognitionOptical Character Recognition (OCR)	—Unverified	0
Intelligent Automation for FDI Facilitation: Optimizing Tariff Exemption Processes with OCR And Large Language Models	Jun 12, 2025	Large Language ModelOptical Character Recognition	—Unverified	0
Task-driven real-world super-resolution of document scans	Jun 8, 2025	Image Super-ResolutionMulti-Task Learning	—Unverified	0
Reading in the Dark with Foveated Event Vision	Jun 7, 2025	Optical Character RecognitionOptical Character Recognition (OCR)	—Unverified	0
MegaHan97K: A Large-Scale Dataset for Mega-Category Chinese Character Recognition with over 97K Categories	Jun 5, 2025	BenchmarkingOptical Character Recognition	CodeCode Available	2
SARD: A Large-Scale Synthetic Arabic OCR Dataset for Book-Style Text Recognition	May 30, 2025	Optical Character RecognitionOptical Character Recognition (OCR)	—Unverified	0
Uni-MuMER: Unified Multi-Task Fine-Tuning of Vision-Language Model for Handwritten Mathematical Expression Recognition	May 29, 2025	Handwritten Mathmatical Expression RecognitionLanguage Modeling	CodeCode Available	1
TextSR: Diffusion Super-Resolution with Multilingual OCR Guidance	May 29, 2025	Image Super-ResolutionOptical Character Recognition	—Unverified	0
MT^3: Scaling MLLM-based Text Image Machine Translation via Multi-Task Reinforcement Learning	May 26, 2025	document understandingMachine Translation	—Unverified	0
Words as Geometric Features: Estimating Homography using Optical Character Recognition as Compressed Image Representation	May 25, 2025	Anomaly DetectionHomography Estimation	—Unverified	0
How Do Large Vision-Language Models See Text in Image? Unveiling the Distinctive Role of OCR Heads	May 21, 2025	Optical Character RecognitionOptical Character Recognition (OCR)	—Unverified	0
Every Pixel Tells a Story: End-to-End Urdu Newspaper OCR	May 20, 2025	ArticlesImage Super-Resolution	—Unverified	0
Reasoning-OCR: Can Large Multimodal Models Solve Complex Logical Reasoning Problems from OCR Cues?	May 19, 2025	Logical ReasoningOptical Character Recognition	CodeCode Available	1
LogicOCR: Do Your Large Multimodal Models Excel at Logical Reasoning on Text-Rich Images?	May 18, 2025	Logical ReasoningMultimodal Reasoning	CodeCode Available	1
Low-Resource Language Processing: An OCR-Driven Summarization and Translation Pipeline	May 16, 2025	Abstractive Text SummarizationLanguage Modeling	CodeCode Available	0
PsOCR: Benchmarking Large Multimodal Models for Optical Character Recognition in Low-resource Pashto Language	May 15, 2025	BenchmarkingOptical Character Recognition	CodeCode Available	0
A document processing pipeline for the construction of a dataset for topic modeling based on the judgments of the Italian Supreme Court	May 13, 2025	DiversityDocument Layout Analysis	—Unverified	0
Reproducibility, Replicability, and Insights into Visual Document Retrieval with Late Interaction	May 12, 2025	Optical Character RecognitionOptical Character Recognition (OCR)	CodeCode Available	0
Development of a WAZOBIA-Named Entity Recognition System	May 10, 2025	Machine Translationnamed-entity-recognition	—Unverified	0
Arrow-Guided VLM: Enhancing Flowchart Understanding via Arrow Direction Encoding	May 9, 2025	Optical Character RecognitionOptical Character Recognition (OCR)	CodeCode Available	0
Toward Advancing License Plate Super-Resolution in Real-World Scenarios: A Dataset and Benchmark	May 9, 2025	License Plate RecognitionOptical Character Recognition	CodeCode Available	0
Lost in OCR Translation? Vision-Based Approaches to Robust Document Retrieval	May 8, 2025	Computational EfficiencyOptical Character Recognition	—Unverified	0
ChemRxivQuest: A Curated Chemistry Question-Answer Database Extracted from ChemRxiv Preprints	May 8, 2025	Optical Character RecognitionOptical Character Recognition (OCR)	—Unverified	0
DOTA: Deformable Optimized Transformer Architecture for End-to-End Text Recognition with Retrieval-Augmented Generation	May 7, 2025	Optical Character RecognitionOptical Character Recognition (OCR)	—Unverified	0
Automated Parsing of Engineering Drawings for Structured Information Extraction Using a Fine-tuned Document Understanding Transformer	May 2, 2025	document understandingHallucination	—Unverified	0
Evaluating Menu OCR and Translation: A Benchmark for Aligning Human and Automated Evaluations in Large Vision-Language Models	Apr 16, 2025	document understandingLayout Design	CodeCode Available	0
Consensus Entropy: Harnessing Multi-VLM Agreement for Self-Verifying and Self-Improving OCR	Apr 15, 2025	Optical Character RecognitionOptical Character Recognition (OCR)	—Unverified	0
Relation-Rich Visual Document Generator for Visual Information Extraction	Apr 14, 2025	Diversitydocument understanding	CodeCode Available	0
NoTeS-Bank: Benchmarking Neural Transcription and Search for Scientific Notes Understanding	Apr 12, 2025	BenchmarkingDocument AI	—Unverified	0
Towards Calibration Enhanced Network by Inverse Adversarial Attack	Apr 8, 2025	Adversarial AttackOptical Character Recognition	—Unverified	0
Playing Non-Embedded Card-Based Games with Reinforcement Learning	Apr 7, 2025	Board GamesDecision Making	CodeCode Available	3
Multimodal LLMs for OCR, OCR Post-Correction, and Named Entity Recognition in Historical Documents	Apr 1, 2025	named-entity-recognitionNamed Entity Recognition	CodeCode Available	1
Context-Independent OCR with Multimodal LLMs: Effects of Image Resolution and Visual Complexity	Mar 31, 2025	Image CaptioningOptical Character Recognition	—Unverified	0
TFIC: End-to-End Text-Focused Image Compression for Coding for Machines	Mar 25, 2025	Image CompressionOptical Character Recognition	—Unverified	0
AI-Driven Multi-Stage Computer Vision System for Defect Detection in Laser-Engraved Industrial Nameplates	Mar 5, 2025	Anomaly DetectionDefect Detection	—Unverified	0
Judge a Book by its Cover: Investigating Multi-Modal LLMs for Multi-Page Handwritten Document Transcription	Feb 27, 2025	Handwritten Text RecognitionHTR	CodeCode Available	0
MultiOCR-QA: Dataset for Evaluating Robustness of LLMs in Question Answering on Multilingual OCR Texts	Feb 24, 2025	Optical Character RecognitionOptical Character Recognition (OCR)	CodeCode Available	0
KITAB-Bench: A Comprehensive Multi-Domain Benchmark for Arabic OCR and Document Understanding	Feb 20, 2025	document understandingOptical Character Recognition	—Unverified	0
Reading the unreadable: Creating a dataset of 19th century English newspapers using image-to-text language models	Feb 18, 2025	Image to textOptical Character Recognition	CodeCode Available	0
Visual Graph Question Answering with ASP and LLMs for Language Parsing	Feb 13, 2025	Graph Question AnsweringOptical Character Recognition	—Unverified	0
Benchmarking Vision-Language Models on Optical Character Recognition in Dynamic Video Environments	Feb 10, 2025	BenchmarkingOptical Character Recognition	CodeCode Available	1
Éclair -- Extracting Content and Layout with Integrated Reading Order for Documents	Feb 6, 2025	Image CaptioningOptical Character Recognition	—Unverified	0
LoCoML: A Framework for Real-World ML Inference Pipelines	Jan 24, 2025	Automatic Speech RecognitionMachine Translation	—Unverified	0
Exploring AI-based System Design for Pixel-level Protected Health Information Detection in Medical Images	Jan 16, 2025	De-identificationOptical Character Recognition	—Unverified	0
Comparative analysis of optical character recognition methods for Sámi texts from the National Library of Norway	Jan 13, 2025	Optical Character RecognitionOptical Character Recognition (OCR)	CodeCode Available	0
Efficient License Plate Recognition in Videos Using Visual Rhythm and Accumulative Line Analysis	Jan 8, 2025	License Plate DetectionLicense Plate Recognition	CodeCode Available	0

Show:10 25 50

← PrevPage 1 of 11Next →

No leaderboard results yet.