document understanding

Document understanding involves document classification, layout analysis, information extraction, and DocQA.

Papers

Recently Added Most Hyped Most Active Needs Verification Most Verified

Showing 151–200 of 309 papers

Title	Date	Tasks	Status
DrVideo: Document Retrieval Based Long Video Understanding	Jun 18, 2024	document understandingEgoSchema	—Unverified
DUBLIN -- Document Understanding By Language-Image Network	May 23, 2023	Document Classificationdocument understanding	—Unverified
Efficient End-to-End Visual Document Understanding with Rationale Distillation	Nov 16, 2023	document understandingImage to text	—Unverified
Efficient layout-aware pretraining for multimodal form understanding	Jan 16, 2022	document understandingForm	—Unverified
Enhancing Question Answering on Charts Through Effective Pre-training Tasks	Jun 14, 2024	document understandingOptical Character Recognition (OCR)	—Unverified
Enhancing Visual Document Understanding with Contrastive Learning in Large Visual-Language Models	Feb 29, 2024	Contrastive Learningdocument understanding	—Unverified
Enumeration of Extractive Oracle Summaries	Jan 6, 2017	document understandingExtractive Summarization	—Unverified
ERNIE-mmLayout: Multi-grained MultiModal Transformer for Document Understanding	Sep 18, 2022	Common Sense Reasoningdocument understanding	—Unverified
Extract with Order for Coherent Multi-Document Summarization	Jun 12, 2017	Document Summarizationdocument understanding	—Unverified
Fast-StrucTexT: An Efficient Hourglass Transformer with Modality-guided Dynamic Token Merge for Document Understanding	May 19, 2023	document understanding	—Unverified
Finding Pragmatic Differences Between Disciplines	Sep 30, 2023	DiversityDocument Summarization	—Unverified
FormNet: Structural Encoding beyond Sequential Modeling in Form Document Information Extraction	Mar 16, 2022	Document AIdocument understanding	—Unverified
Leveraging Distillation Techniques for Document Understanding: A Case Study with FLAN-T5	Sep 17, 2024	document understandingTransfer Learning	—Unverified
Leveraging Domain Agnostic and Specific Knowledge for Acronym Disambiguation	Jul 1, 2021	document understandingWord Embeddings	—Unverified
Leveraging Long-Context Large Language Models for Multi-Document Understanding and Summarization in Enterprise Applications	Sep 27, 2024	DiversityDocument Summarization	—Unverified
LongFin: A Multimodal Document Understanding Model for Long Financial Domain Documents	Jan 26, 2024	4kDocument AI	—Unverified
LoPE: Learnable Sinusoidal Positional Encoding for Improving Document Transformer Model	Jan 16, 2022	document understanding	—Unverified
LoRA-Contextualizing Adaptation of Large Multimodal Models for Long Document Understanding	Nov 2, 2024	document understandingQuestion Answering	—Unverified
M3DocRAG: Multi-modal Retrieval is What You Need for Multi-page Multi-document Understanding	Nov 7, 2024	document understandingOptical Character Recognition	—Unverified
MataDoc: Margin and Text Aware Document Dewarping for Arbitrary Boundary	Jul 24, 2023	document understandingOptical Character Recognition (OCR)	—Unverified
MATATA: Weakly Supervised End-to-End MAthematical Tool-Augmented Reasoning for Tabular Applications	Nov 28, 2024	document understandingMathematical Reasoning	—Unverified
MATrIX -- Modality-Aware Transformer for Information eXtraction	May 17, 2022	document understanding	—Unverified
Memory-Augmented Agent Training for Business Document Understanding	Dec 17, 2024	document understanding	—Unverified
Merge and Recognize: A Geometry and 2D Context Aware Graph Model for Named Entity Recognition from Visual Documents	Dec 1, 2020	document understandingLanguage Modeling	—Unverified
M-Longdoc: A Benchmark For Multimodal Super-Long Document Understanding And A Retrieval-Aware Tuning Framework	Nov 9, 2024	document understandingQuestion Answering	—Unverified
MMDocBench: Benchmarking Large Vision-Language Models for Fine-Grained Visual Document Understanding	Oct 25, 2024	Benchmarkingdocument understanding	—Unverified
MT^3: Scaling MLLM-based Text Image Machine Translation via Multi-Task Reinforcement Learning	May 26, 2025	document understandingMachine Translation	—Unverified
Multi-modal Information Extraction from Text, Semi-structured, and Tabular Data on the Web	Jul 1, 2020	document understandingEntity Linking	—Unverified
NAMER: Non-Autoregressive Modeling for Handwritten Mathematical Expression Recognition	Jul 16, 2024	Decoderdocument understanding	—Unverified
NoTeS-Bank: Benchmarking Neural Transcription and Search for Scientific Notes Understanding	Apr 12, 2025	BenchmarkingDocument AI	—Unverified
Notes on Applicability of GPT-4 to Document Understanding	May 28, 2024	document understandingOptical Character Recognition (OCR)	—Unverified
Object-oriented Neural Programming (OONP) for Document Understanding	Sep 26, 2017	document understandingObject	—Unverified
One-Shot Doc Snippet Detection: Powering Search in Document Beyond Text	Sep 12, 2022	document understandingobject-detection	—Unverified
On Scaling Up a Multilingual Vision and Language Model	Jan 1, 2024	document understandingIn-Context Learning	—Unverified
OPAD: An Optimized Policy-based Active Learning Framework for Document Content Analysis	Oct 1, 2021	Active Learningdocument understanding	—Unverified
PDFVQA: A New Dataset for Real-World VQA on PDF Documents	Apr 13, 2023	document understandingKey Information Extraction	—Unverified
Point-RFT: Improving Multimodal Reasoning with Visually Grounded Reinforcement Finetuning	May 26, 2025	document understandingMultimodal Reasoning	—Unverified
Position Masking for Improved Layout-Aware Document Understanding	Sep 1, 2021	document understandingPosition	—Unverified
Probing Position-Aware Attention Mechanism in Long Document Understanding	Nov 16, 2021	document understandingNatural Language Understanding	—Unverified
ProtoNER: Few shot Incremental Learning for Named Entity Recognition using Prototypical Networks	Oct 3, 2023	document understandingIncremental Learning	—Unverified
PSG: Prompt-based Sequence Generation for Acronym Extraction	Nov 29, 2021	document understandingLanguage Modeling	—Unverified
QID: Efficient Query-Informed ViTs in Data-Scarce Regimes for OCR-free Visual Document Understanding	Apr 3, 2025	document understandingLanguage Modeling	—Unverified
QueryForm: A Simple Zero-shot Form Entity Query Framework	Nov 14, 2022	document understandingForm	—Unverified
RDU: A Region-based Approach to Form-style Document Understanding	Jun 14, 2022	document understandingForm	—Unverified
Reinforced UI Instruction Grounding: Towards a Generic UI Task Automation API	Oct 7, 2023	Decoderdocument understanding	—Unverified
ReLayout: Towards Real-World Document Understanding via Layout-enhanced Pre-training	Oct 14, 2024	document understandingOptical Character Recognition (OCR)	—Unverified
Retrieval Augmented Structured Generation: Business Document Information Extraction As Tool Use	May 30, 2024	document understandingKey Information Extraction	—Unverified
Revisiting Table Detection Datasets for Visually Rich Documents	May 4, 2023	document understandingobject-detection	—Unverified
RJUA-MedDQA: A Multimodal Benchmark for Medical Document Question Answering and Clinical Reasoning	Feb 19, 2024	document understandingMedical Diagnosis	—Unverified
Robust Text Line Detection in Historical Documents: Learning and Evaluation Methods	Mar 23, 2022	document understandingLine Detection	—Unverified

Show:10 25 50

← PrevPage 4 of 7Next →

No leaderboard results yet.