SOTAVerified|Agents Browse Leaderboard About Blog

TextVQA

Papers

Recently Added Most Hyped Most Active Needs Verification Most Verified

Showing 26–47 of 47 papers

Title	Date	Tasks	Status	Hype
FlexAttention for Efficient High-Resolution Vision-Language Models	Jul 29, 2024	TextVQA	—Unverified	0
Graph Relation Transformer: Incorporating pairwise object features into the Transformer architecture	Nov 11, 2021	Graph AttentionQuestion Answering	—Unverified	0
HyViLM: Enhancing Fine-Grained Recognition with a Hybrid Encoder for Vision-Language Models	Dec 11, 2024	TextVQA	—Unverified	0
Locate Then Generate: Bridging Vision and Language with Bounding Box for Scene-Text VQA	Apr 4, 2023	Answer GenerationLanguage Modelling	—Unverified	0
Making the V in Text-VQA Matter	Aug 1, 2023	Optical Character Recognition (OCR)TextVQA	—Unverified	0
Multiple-Question Multiple-Answer Text-VQA	Nov 15, 2023	DecoderDenoising	—Unverified	0
SceneGATE: Scene-Graph based co-Attention networks for TExt visual question answering	Dec 16, 2022	Optical Character RecognitionOptical Character Recognition (OCR)	—Unverified	0
Sentence Attention Blocks for Answer Grounding	Sep 20, 2023	Question AnsweringSentence	—Unverified	0
Simple is not Easy: A Simple Strong Baseline for TextVQA and TextCaps	Dec 9, 2020	DecoderImage Captioning	—Unverified	0
TextOCR: Towards large-scale end-to-end reasoning for arbitrary-shaped scene text	May 12, 2021	Optical Character RecognitionOptical Character Recognition (OCR)	—Unverified	0
TextSR: Diffusion Super-Resolution with Multilingual OCR Guidance	May 29, 2025	Image Super-ResolutionOptical Character Recognition	—Unverified	0
Toward 3D Spatial Reasoning for Human-like Text-based Visual Question Answering	Sep 21, 2022	Image CaptioningOptical Character Recognition (OCR)	—Unverified	0
Towards Escaping from Language Bias and OCR Error: Semantics-Centered Text Visual Question Answering	Mar 24, 2022	Optical Character RecognitionOptical Character Recognition (OCR)	—Unverified	0
VisLingInstruct: Elevating Zero-Shot Learning in Multi-Modal Language Models with Autonomous Instruction Optimization	Feb 12, 2024	In-Context LearningTextVQA	CodeCode Available	0
Instruction-Aligned Visual Attention for Mitigating Hallucinations in Large Vision-Language Models	Mar 24, 2025	MMETextVQA	CodeCode Available	0
Towards a Unified Multimodal Reasoning Framework	Dec 22, 2023	Multimodal ReasoningMultiple-choice	CodeCode Available	0
Adversarial Training with OCR Modality Perturbation for Scene-Text Visual Question Answering	Mar 14, 2024	Optical Character RecognitionOptical Character Recognition (OCR)	CodeCode Available	0
InstructOCR: Instruction Boosting Scene Text Spotting	Dec 20, 2024	Optical Character Recognition (OCR)Text Spotting	CodeCode Available	0
Separate and Locate: Rethink the Text in Text-based Visual Question Answering	Aug 31, 2023	Optical Character Recognition (OCR)Position	CodeCode Available	0
OmniFusion Technical Report	Apr 9, 2024	MM-VetTextVQA	CodeCode Available	0
Iterative Answer Prediction with Pointer-Augmented Multimodal Transformers for TextVQA	Nov 14, 2019	General ClassificationTextVQA	CodeCode Available	0
Track the Answer: Extending TextVQA from Image to Video with Spatio-Temporal Clues	Dec 17, 2024	Language ModelingLanguage Modelling	CodeCode Available	0

Show:10 25 50

← PrevPage 2 of 2Next →

No leaderboard results yet.