TextVQA

Papers

Recently Added Most Hyped Most Active Needs Verification Most Verified

Showing 1–25 of 47 papers

Title	Date	Tasks	Status	Hype
Mitigating Object Hallucinations via Sentence-Level Early Intervention	Jul 16, 2025	HallucinationMM-Vet	CodeCode Available	1
TextSR: Diffusion Super-Resolution with Multilingual OCR Guidance	May 29, 2025	Image Super-ResolutionOptical Character Recognition	—Unverified	0
EvoMoE: Expert Evolution in Mixture of Experts for Multimodal Large Language Models	May 28, 2025	Mixture-of-ExpertsMME	—Unverified	0
Analysing the Robustness of Vision-Language-Models to Common Corruptions	Apr 18, 2025	TextVQA	—Unverified	0
Instruction-Aligned Visual Attention for Mitigating Hallucinations in Large Vision-Language Models	Mar 24, 2025	MMETextVQA	CodeCode Available	0
Parameter-Inverted Image Pyramid Networks for Visual Perception and Multimodal Understanding	Jan 14, 2025	image-classificationImage Classification	CodeCode Available	2
What Kind of Visual Tokens Do We Need? Training-free Visual Token Pruning for Multi-modal Large Language Models from the Perspective of Graph	Jan 4, 2025	TextVQA	CodeCode Available	2
InstructOCR: Instruction Boosting Scene Text Spotting	Dec 20, 2024	Optical Character Recognition (OCR)Text Spotting	CodeCode Available	0
Track the Answer: Extending TextVQA from Image to Video with Spatio-Temporal Clues	Dec 17, 2024	Language ModelingLanguage Modelling	CodeCode Available	0
Lyra: An Efficient and Speech-Centric Framework for Omni-Cognition	Dec 12, 2024	EgoSchema	CodeCode Available	3
HyViLM: Enhancing Fine-Grained Recognition with a Hybrid Encoder for Vision-Language Models	Dec 11, 2024	TextVQA	—Unverified	0
Enhancing Instruction-Following Capability of Visual-Language Models by Reducing Image Redundancy	Nov 23, 2024	Instruction FollowingMME	—Unverified	0
CogVLM2: Visual Language Models for Image and Video Understanding	Aug 29, 2024	MM-VetMVBench	CodeCode Available	9
EE-MLLM: A Data-Efficient and Compute-Efficient Multimodal Large Language Model	Aug 21, 2024	Computational EfficiencyLanguage Modeling	—Unverified	0
FlexAttention for Efficient High-Resolution Vision-Language Models	Jul 29, 2024	TextVQA	—Unverified	0
DeepStack: Deeply Stacking Visual Tokens is Surprisingly Simple and Effective for LMMs	Jun 6, 2024	Language ModellingLarge Language Model	—Unverified	0
Dragonfly: Multi-Resolution Zoom-In Encoding Enhances Vision-Language Models	Jun 3, 2024	Image CaptioningLanguage Modelling	CodeCode Available	2
OmniFusion Technical Report	Apr 9, 2024	MM-VetTextVQA	CodeCode Available	0
LLaVA-UHD: an LMM Perceiving Any Aspect Ratio and High-Resolution Images	Mar 18, 2024	Long-Context UnderstandingTextVQA	CodeCode Available	3
Adversarial Training with OCR Modality Perturbation for Scene-Text Visual Question Answering	Mar 14, 2024	Optical Character RecognitionOptical Character Recognition (OCR)	CodeCode Available	0
TextMonkey: An OCR-Free Large Multimodal Model for Understanding Document	Mar 7, 2024	document understandingKey Information Extraction	CodeCode Available	5
Feast Your Eyes: Mixture-of-Resolution Adaptation for Multimodal Large Language Models	Mar 5, 2024	TextVQAVisual Question Answering	CodeCode Available	3
VisLingInstruct: Elevating Zero-Shot Learning in Multi-Modal Language Models with Autonomous Instruction Optimization	Feb 12, 2024	In-Context LearningTextVQA	CodeCode Available	0
Towards a Unified Multimodal Reasoning Framework	Dec 22, 2023	Multimodal ReasoningMultiple-choice	CodeCode Available	0
Multiple-Question Multiple-Answer Text-VQA	Nov 15, 2023	DecoderDenoising	—Unverified	0

Show:10 25 50

← PrevPage 1 of 2Next →

No leaderboard results yet.