Question Answering

Question answering can be segmented into domain-specific tasks like community question answering and knowledge-base question answering. Popular benchmark datasets for evaluation question answering systems include SQuAD, HotPotQA, bAbI, TriviaQA, WikiQA, and many others. Models for question answering are typically evaluated on metrics like EM and F1. Some recent top performing models are T5 and XLNet.

( Image credit: SQuAD )

Papers

Recently Added Most Hyped Most Active Needs Verification Most Verified

Showing 10301–10350 of 10817 papers

Title	Date	Tasks	Status
RAVEN: Query-Guided Representation Alignment for Question Answering over Audio, Video, Embedded Sensors, and Natural Language	May 21, 2025	Question Answering	CodeCode Available
MedExQA: Medical Question Answering Benchmark with Multiple Explanations	Jun 10, 2024	Medical Question AnsweringQuestion Answering	CodeCode Available
Do LLMs Implicitly Determine the Suitable Text Difficulty for Users?	Feb 22, 2024	Question Answering	CodeCode Available
RConE: Rough Cone Embedding for Multi-Hop Logical Query Answering on Multi-Modal Knowledge Graphs	Aug 21, 2024	Knowledge GraphsLink Prediction	CodeCode Available
Do-GOOD: Towards Distribution Shift Evaluation for Pre-Trained Visual Document Understanding Models	Jun 5, 2023	document understandingQuestion Answering	CodeCode Available
MedG-KRP: Medical Graph Knowledge Representation Probing	Dec 14, 2024	Multiple-choiceMultiple Choice Question Answering (MCQA)	CodeCode Available
RepLiQA: A Question-Answering Dataset for Benchmarking LLMs on Unseen Reference Content	Jun 17, 2024	BenchmarkingGeneral Knowledge	CodeCode Available
On the Influence of Context Size and Model Choice in Retrieval-Augmented Generation Systems	Feb 20, 2025	Long Form Question AnsweringQuestion Answering	CodeCode Available
A Survey on Recent Advances in Named Entity Recognition from Deep Learning models	Oct 25, 2019	Feature EngineeringInformation Retrieval	CodeCode Available
MedHallTune: An Instruction-Tuning Benchmark for Mitigating Medical Hallucination in Vision-Language Models	Feb 28, 2025	Decision MakingHallucination	CodeCode Available
Answering Naturally: Factoid to Full length Answer Generation	Nov 1, 2019	Answer GenerationQuestion Answering	CodeCode Available
On the Multilingual Capabilities of Very Large-Scale English Language Models	Aug 30, 2021	Extractive Question-AnsweringFew-Shot Learning	CodeCode Available
Medical Adaptation of Large Language and Vision-Language Models: Are We Making Progress?	Nov 6, 2024	Medical Question AnsweringQuestion Answering	CodeCode Available
Prosody Modifications for Question-Answering in Voice-Only Settings	Jun 11, 2018	InformativenessQuestion Answering	CodeCode Available
Aligning Visual Regions and Textual Concepts for Semantic-Grounded Image Representations	May 15, 2019	Image CaptioningQuestion Answering	CodeCode Available
Medical Large Vision Language Models with Multi-Image Visual Ability	May 25, 2025	Question AnsweringVisual Question Answering (VQA)	CodeCode Available
Medical Question Summarization with Entity-driven Contrastive Learning	Apr 15, 2023	Contrastive LearningMedical Question Answering	CodeCode Available
Medical Question Understanding and Answering with Knowledge Grounding and Semantic Self-Supervision	Sep 30, 2022	Medical Question AnsweringQuestion Answering	CodeCode Available
Capturing Humans' Mental Models of AI: An Item Response Theory Approach	May 15, 2023	AI AgentQuestion Answering	CodeCode Available
On the Robustness of Dialogue History Representation in Conversational Question Answering: A Comprehensive Study and a New Prompt-based Method	Jun 29, 2022	Conversational Question AnsweringQuestion Answering	CodeCode Available
Protecting multimodal large language models against misleading visualizations	Feb 27, 2025	Language ModelingLanguage Modelling	CodeCode Available
On the Robustness of Question Rewriting Systems to Questions of Varying Hardness	Nov 12, 2023	Conversational Question AnsweringQuestion Answering	CodeCode Available
A Survey on Deep Learning for Named Entity Recognition	Dec 22, 2018	DecoderDeep Learning	CodeCode Available
Does RAG Introduce Unfairness in LLMs? Evaluating Fairness in Retrieval-Augmented Generation Systems	Sep 29, 2024	FairnessOpen-Domain Question Answering	CodeCode Available
On the Structural Memory of LLM Agents	Dec 17, 2024	Language ModelingLanguage Modelling	CodeCode Available
MediFact at MEDIQA-CORR 2024: Why AI Needs a Human Touch	Apr 27, 2024	abstractive question answeringFeature Engineering	CodeCode Available
MediFact at MEDIQA-M3G 2024: Medical Question Answering in Dermatology with Multimodal Learning	Apr 27, 2024	Answer GenerationMedical Question Answering	CodeCode Available
Does Chain-of-Thought Reasoning Help Mobile GUI Agent? An Empirical Study	Mar 21, 2025	AttributeMathematical Problem-Solving	CodeCode Available
On the Summarization of Consumer Health Questions	Jul 1, 2019	Data AugmentationQuestion Answering	CodeCode Available
Document Haystacks: Vision-Language Reasoning Over Piles of 1000+ Documents	Nov 23, 2024	Question AnsweringRAG	CodeCode Available
DocTabQA: Answering Questions from Long Documents Using Tables	Aug 21, 2024	Question Answering	CodeCode Available
MedLogic-AQA: Enhancing Medical Question Answering with Abstractive Models Focusing on Logical Structures	Oct 20, 2024	Answer GenerationInformativeness	CodeCode Available
DocMIA: Document-Level Membership Inference Attacks against DocVQA Models	Feb 6, 2025	document understandingInference Attack	CodeCode Available
D-NET: A Pre-Training and Fine-Tuning Framework for Improving the Generalization of Machine Reading Comprehension	Nov 1, 2019	Machine Reading ComprehensionMulti-Task Learning	CodeCode Available
MedMobile: A mobile-sized language model with expert-level clinical capabilities	Oct 11, 2024	Language ModelingLanguage Modelling	CodeCode Available
DLP-LoRA: Efficient Task-Specific LoRA Fusion with a Dynamic, Lightweight Plugin for Large Language Models	Oct 2, 2024	Multiple-choiceparameter-efficient fine-tuning	CodeCode Available
A Survey of Video Datasets for Grounded Event Understanding	Jun 14, 2024	Common Sense ReasoningEvent Extraction	CodeCode Available
Answering Diverse Questions via Text Attached with Key Audio-Visual Clues	Mar 11, 2024	Audio-visual Question AnsweringAudio-Visual Question Answering (AVQA)	CodeCode Available
Med-PMC: Medical Personalized Multi-modal Consultation with a Proactive Ask-First-Observe-Next Paradigm	Aug 16, 2024	Decision MakingMedical Visual Question Answering	CodeCode Available
Med-REFL: Medical Reasoning Enhancement via Self-Corrected Fine-grained Reflection	Jun 11, 2025	Medical Question AnsweringMedQA	CodeCode Available
Aligning Multilingual Embeddings for Improved Code-switched Natural Language Understanding	Oct 1, 2022	named-entity-recognitionNamed Entity Recognition	CodeCode Available
Answering Count Queries with Explanatory Evidence	Apr 11, 2022	Question Answering	CodeCode Available
Proximity QA: Unleashing the Power of Multi-Modal Large Language Models for Spatial Proximity Analysis	Jan 31, 2024	Multi-Task LearningQuestion Answering	CodeCode Available
A Study on Large Language Models' Limitations in Multiple-Choice Question Answering	Jan 15, 2024	Multiple-choiceQuestion Answering	CodeCode Available
Answering Complex Questions Using Open Information Extraction	Apr 19, 2017	Open Information ExtractionQuestion Answering	CodeCode Available
MedViLaM: A multimodal large language model with advanced generalizability and explainability for medical data understanding and generation	Sep 29, 2024	Language ModelingLanguage Modelling	CodeCode Available
Revisiting Sentence Union Generation as a Testbed for Text Consolidation	May 24, 2023	Document SummarizationLong Form Question Answering	CodeCode Available
Pruning Pre-trained Language Models with Principled Importance and Self-regularization	May 21, 2023	Data-to-Text Generationnamed-entity-recognition	CodeCode Available
MeeQA: Natural Questions in Meeting Transcripts	May 15, 2023	Natural QuestionsQuestion Answering	CodeCode Available
Reading Between the Lanes: Text VideoQA on the Road	Jul 8, 2023	Question AnsweringScene Text Recognition	CodeCode Available

Show:10 25 50

← PrevPage 207 of 217Next →

All datasets SQuAD2.0 SQuAD1.1 HotpotQA PIQA BoolQ COPA TriviaQA SQuAD1.1 dev Natural Questions OpenBookQA TruthfulQA MultiRC

Benchmark Results

#	Model	Metric	Claimed	Verified	Status
1	IE-Net (ensemble)	EM	90.94	—	Unverified
2	FPNet (ensemble)	EM	90.87	—	Unverified
3	IE-NetV2 (ensemble)	EM	90.86	—	Unverified
4	SA-Net on Albert (ensemble)	EM	90.72	—	Unverified
5	SA-Net-V2 (ensemble)	EM	90.68	—	Unverified
6	FPNet (ensemble)	EM	90.6	—	Unverified
7	Retro-Reader (ensemble)	EM	90.58	—	Unverified
8	EntitySpanFocusV2 (ensemble)	EM	90.52	—	Unverified
9	TransNets + SFVerifier + SFEnsembler (ensemble)	EM	90.49	—	Unverified
10	EntitySpanFocus+AT (ensemble)	EM	90.45	—	Unverified