Question Answering

Question answering can be segmented into domain-specific tasks like community question answering and knowledge-base question answering. Popular benchmark datasets for evaluation question answering systems include SQuAD, HotPotQA, bAbI, TriviaQA, WikiQA, and many others. Models for question answering are typically evaluated on metrics like EM and F1. Some recent top performing models are T5 and XLNet.

( Image credit: SQuAD )

Papers

Recently Added Most Hyped Most Active Needs Verification Most Verified

Showing 4876–4900 of 10817 papers

Title	Date	Tasks	Status
A Question Answering Approach for Emotion Cause Extraction	Sep 1, 2017	Emotion Cause ExtractionEmotion Classification	—Unverified
Active Reasoning in an Open-World Environment	Nov 3, 2023	Instruction FollowingMinecraft	—Unverified
Abductive Reasoning as Self-Supervision for Common Sense Question Answering	Sep 6, 2019	Common Sense ReasoningDomain Adaptation	—Unverified
TempRetriever: Fusion-based Temporal Dense Passage Retrieval for Time-Sensitive Questions	Feb 28, 2025	Information RetrievalPassage Retrieval	—Unverified
Evaluation of General Large Language Models in Contextually Assessing Semantic Concepts Extracted from Adult Critical Care Electronic Health Record Notes	Jan 24, 2024	NegationQuestion Answering	—Unverified
Evaluation of Faithfulness Using the Longest Supported Subsequence	Aug 23, 2023	DiversityQuestion Answering	—Unverified
Evaluation of Dataset Selection for Pre-Training and Fine-Tuning Transformer Language Models for Clinical Question Answering	May 1, 2020	Machine Reading ComprehensionQuestion Answering	—Unverified
Evaluation of ChatGPT on Biomedical Tasks: A Zero-Shot Comparison with Fine-Tuned Generative Transformers	Jun 7, 2023	Document ClassificationLanguage Modeling	—Unverified
Can We Infer Confidential Properties of Training Data from LLMs?	Jun 12, 2025	image-classificationImage Classification	—Unverified
Can We Generate Visual Programs Without Prompting LLMs?	Dec 11, 2024	Data AugmentationQuestion Answering	—Unverified
Evaluation of baseline information retrieval for Polish open-domain Question Answering system	Sep 1, 2013	Answer SelectionDocument Ranking	—Unverified
Evaluation of AI Chatbots for Patient-Specific EHR Questions	Jun 5, 2023	Language ModelingLanguage Modelling	—Unverified
Can We Create a Tool for General Domain Event Analysis?	May 1, 2017	Morphological AnalysisQuestion Answering	—Unverified
A Quantitative Evaluation of Natural Language Question Interpretation for Question Answering Systems	Sep 20, 2018	Question Answering	—Unverified
Evaluation for Partial Event Coreference	Jun 1, 2014	Coreference ResolutionNatural Language Inference	—Unverified
Evaluation and Enhancement of Semantic Grounding in Large Vision-Language Models	Sep 7, 2023	Question AnsweringVisual Question Answering	—Unverified
Evaluating Zero-Shot GPT-4V Performance on 3D Visual Question Answering Benchmarks	May 29, 2024	Question AnsweringVisual Question Answering	—Unverified
Can Visual Language Models Replace OCR-Based Visual Question Answering Pipelines in Production? A Case Study in Retail	Aug 28, 2024	Optical Character RecognitionOptical Character Recognition (OCR)	—Unverified
Evaluating Variable-Length Multiple-Option Lists in Chatbots and Mobile Search	May 25, 2019	Question Answering	—Unverified
Evaluating Tool-Augmented Agents in Remote Sensing Platforms	Apr 23, 2024	Question Answering	—Unverified
Evaluating the Symbol Binding Ability of Large Language Models for Multiple-Choice Questions in Vietnamese General Education	Oct 18, 2023	Multiple-choiceMultiple Choice Question Answering (MCQA)	—Unverified
Evaluating the Robustness of Machine Reading Comprehension Models to Low Resource Entity Renaming	Apr 6, 2023	Machine Reading ComprehensionQuestion Answering	—Unverified
Can Vision-Language Models Answer Face to Face Questions in the Real-World?	Mar 25, 2025	Question Answering	—Unverified
AI-KU: Using Co-Occurrence Modeling for Semantic Similarity	Aug 1, 2014	Information RetrievalLanguage Modelling	—Unverified
Active Reading Comprehension: A Dataset for Learning the Question-Answer Relationship Strategy	Jul 1, 2019	Question AnsweringReading Comprehension	—Unverified

Show:10 25 50

← PrevPage 196 of 433Next →

All datasets SQuAD2.0 SQuAD1.1 HotpotQA PIQA BoolQ COPA TriviaQA SQuAD1.1 dev Natural Questions OpenBookQA TruthfulQA MultiRC

Benchmark Results

#	Model	Metric	Claimed	Verified	Status
1	IE-Net (ensemble)	EM	90.94	—	Unverified
2	FPNet (ensemble)	EM	90.87	—	Unverified
3	IE-NetV2 (ensemble)	EM	90.86	—	Unverified
4	SA-Net on Albert (ensemble)	EM	90.72	—	Unverified
5	SA-Net-V2 (ensemble)	EM	90.68	—	Unverified
6	FPNet (ensemble)	EM	90.6	—	Unverified
7	Retro-Reader (ensemble)	EM	90.58	—	Unverified
8	EntitySpanFocusV2 (ensemble)	EM	90.52	—	Unverified
9	TransNets + SFVerifier + SFEnsembler (ensemble)	EM	90.49	—	Unverified
10	EntitySpanFocus+AT (ensemble)	EM	90.45	—	Unverified