Optical Character Recognition (OCR)

Optical Character Recognition or Optical Character Reader (OCR) is the electronic or mechanical conversion of images of typed, handwritten or printed text into machine-encoded text, whether from a scanned document, a photo of a document, a scene-photo (for example the text on signs and billboards in a landscape photo, license plates in cars...) or from subtitle text superimposed on an image (for example: from a television broadcast)

Papers

Recently Added Most Hyped Most Active Needs Verification Most Verified

Showing 276–300 of 1209 papers

Title	Date	Tasks	Status
GlyphMastero: A Glyph Encoder for High-Fidelity Scene Text Editing	May 8, 2025	Optical Character Recognition (OCR)Scene Text Editing	—Unverified
Lost in OCR Translation? Vision-Based Approaches to Robust Document Retrieval	May 8, 2025	Computational EfficiencyOptical Character Recognition	—Unverified
DOTA: Deformable Optimized Transformer Architecture for End-to-End Text Recognition with Retrieval-Augmented Generation	May 7, 2025	Optical Character RecognitionOptical Character Recognition (OCR)	—Unverified
SymbioticRAG: Enhancing Document Intelligence Through Human-LLM Symbiotic Collaboration	May 5, 2025	Optical Character Recognition (OCR)RAG	—Unverified
Automated Parsing of Engineering Drawings for Structured Information Extraction Using a Fine-tuned Document Understanding Transformer	May 2, 2025	document understandingHallucination	—Unverified
Entropy Heat-Mapping: Localizing GPT-Based OCR Errors with Sliding-Window Shannon Analysis	Apr 30, 2025	Optical Character Recognition (OCR)	—Unverified
Guidelines for External Disturbance Factors in the Use of OCR in Real-World Environments	Apr 21, 2025	Optical Character Recognition (OCR)	—Unverified
Tiger200K: Manually Curated High Visual Quality Video Dataset from UGC Platform	Apr 21, 2025	Boundary DetectionOptical Character Recognition (OCR)	—Unverified
Evaluating Menu OCR and Translation: A Benchmark for Aligning Human and Automated Evaluations in Large Vision-Language Models	Apr 16, 2025	document understandingLayout Design	CodeCode Available
Consensus Entropy: Harnessing Multi-VLM Agreement for Self-Verifying and Self-Improving OCR	Apr 15, 2025	Optical Character RecognitionOptical Character Recognition (OCR)	—Unverified
Relation-Rich Visual Document Generator for Visual Information Extraction	Apr 14, 2025	Diversitydocument understanding	CodeCode Available
NoTeS-Bank: Benchmarking Neural Transcription and Search for Scientific Notes Understanding	Apr 12, 2025	BenchmarkingDocument AI	—Unverified
Towards Calibration Enhanced Network by Inverse Adversarial Attack	Apr 8, 2025	Adversarial AttackOptical Character Recognition	—Unverified
Towards Visual Text Grounding of Multimodal Large Language Model	Apr 7, 2025	BenchmarkingLanguage Modeling	—Unverified
VISTA-OCR: Towards generative and interactive end to end OCR models	Apr 4, 2025	DecoderOptical Character Recognition (OCR)	—Unverified
QID: Efficient Query-Informed ViTs in Data-Scarce Regimes for OCR-free Visual Document Understanding	Apr 3, 2025	document understandingLanguage Modeling	—Unverified
Context-Independent OCR with Multimodal LLMs: Effects of Image Resolution and Visual Complexity	Mar 31, 2025	Image CaptioningOptical Character Recognition	—Unverified
BiblioPage: A Dataset of Scanned Title Pages for Bibliographic Metadata Extraction	Mar 25, 2025	document understandingobject-detection	CodeCode Available
TFIC: End-to-End Text-Focused Image Compression for Coding for Machines	Mar 25, 2025	Image CompressionOptical Character Recognition	—Unverified
Slide2Text: Leveraging LLMs for Personalized Textbook Generation from PowerPoint Presentations	Mar 22, 2025	Optical Character Recognition (OCR)	—Unverified
KL3M Tokenizers: A Family of Domain-Specific and Character-Level Tokenizers for Legal, Financial, and Preprocessing Applications	Mar 21, 2025	16k4k	CodeCode Available
A Data-driven Investigation of Euphemistic Language: Comparing the usage of "slave" and "servant" in 19th century US newspapers	Mar 19, 2025	Optical Character Recognition (OCR)	CodeCode Available
LVAgent: Long Video Understanding by Multi-Round Dynamical Collaboration of MLLM Agents	Mar 13, 2025	Computational EfficiencyOptical Character Recognition (OCR)	—Unverified
KAP: MLLM-assisted OCR Text Enhancement for Hybrid Retrieval in Chinese Non-Narrative Documents	Mar 11, 2025	Optical Character Recognition (OCR)Retrieval	CodeCode Available
Revisiting Noise in Natural Language Processing for Computational Social Science	Mar 10, 2025	Optical Character Recognition (OCR)	—Unverified

Show:10 25 50

← PrevPage 12 of 49Next →

All datasets Benchmarking Chinese Text Recognition: Datasets, Baselines, and an Empirical Study VideoDB's OCR Benchmark Public Collection FSNS - Test I2L-140K SUT im2latex-100k

Benchmark Results

#	Model	Metric	Claimed	Verified	Status
1	DTrOCR	Accuracy (%)	89.6	—	Unverified
2	DTrOCR 105M	Accuracy (%)	89.6	—	Unverified
3	MaskOCR-L	Accuracy (%)	82.6	—	Unverified
4	TransOCR	Accuracy (%)	72.8	—	Unverified
5	SRN	Accuracy (%)	65	—	Unverified
6	MORAN	Accuracy (%)	64.3	—	Unverified
7	SEED	Accuracy (%)	61.2	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	GPT-4o	Average Accuracy	76.22	—	Unverified
2	Gemini-1.5 Pro	Average Accuracy	76.13	—	Unverified
3	Claude-3 Sonnet	Average Accuracy	67.71	—	Unverified
4	RapidOCR	Average Accuracy	56.98	—	Unverified
5	EasyOCR	Average Accuracy	49.3	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	STREET	Sequence error	27.54	—	Unverified
2	SEE	Sequence error	22	—	Unverified
3	AttentionOCR_Inception-resnet-v2_Location	Sequence error	15.8	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	I2L-NOPOOL	BLEU	89.09	—	Unverified
2	I2L-STRIPS	BLEU	89	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	Tesseract	Character Error Rate (CER)	0.08	—	Unverified
2	EasyOCR	Character Error Rate (CER)	0.07	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	I2L-STRIPS	BLEU	88.86	—	Unverified