Question Answering

Question answering can be segmented into domain-specific tasks like community question answering and knowledge-base question answering. Popular benchmark datasets for evaluation question answering systems include SQuAD, HotPotQA, bAbI, TriviaQA, WikiQA, and many others. Models for question answering are typically evaluated on metrics like EM and F1. Some recent top performing models are T5 and XLNet.

( Image credit: SQuAD )

Papers

Recently Added Most Hyped Most Active Needs Verification Most Verified

Showing 4851–4900 of 10817 papers

Title	Date	Tasks	Status
A Question-answering Based Framework for Relation Extraction Validation	Apr 7, 2021	Question AnsweringRelation	—Unverified
Towards Answering Open-ended Ethical Quandary Questions	May 12, 2022	Few-Shot LearningGenerative Question Answering	—Unverified
Event-Based Time Label Propagation for Automatic Dating of News Articles	Oct 1, 2013	ArticlesInformation Retrieval	—Unverified
Event analysis for information extraction from business-based technical documents	Jun 1, 2015	Question Answering	—Unverified
EVE: Efficient Vision-Language Pre-training with Masked Prediction and Modality-Aware MoE	Aug 23, 2023	Image-text matchingImage-text Retrieval	—Unverified
A Question-Answering Approach to Key Value Pair Extraction from Form-like Document Images	Apr 17, 2023	DecoderForm	—Unverified
Evaluation Paradigms in Question Answering	Nov 1, 2021	PositionQuestion Answering	—Unverified
Evaluation of Two-level Dependency Representations of Argument Structure in Long-Distance Dependencies	Aug 1, 2015	Dependency ParsingQuestion Answering	—Unverified
CAPTION: Correction by Analyses, POS-Tagging and Interpretation of Objects using only Nouns	Oct 2, 2020	Image Captioningobject-detection	—Unverified
Evaluation of Transfer Learning for Polish with a Text-to-Text Model	May 18, 2022	DecoderDenoising	—Unverified
Evaluation of Transfer Learning for Polish with a text-to-text model	Oct 16, 2021	DecoderDenoising	—Unverified
CAPO: Reinforcing Consistent Reasoning in Medical Decision-Making	Jun 15, 2025	Answer GenerationDecision Making	—Unverified
A Question Answering Approach to Emotion Cause Extraction	Aug 18, 2017	Emotion Cause ExtractionEmotion Classification	—Unverified
AIPatient: Simulating Patients with EHRs and LLM Powered Agentic Workflow	Sep 27, 2024	Medical Question AnsweringQuestion Answering	—Unverified
Evaluation of the KomParse Conversational Non-Player Characters in a Commercial Virtual World	May 1, 2012	Natural Language UnderstandingQuestion Answering	—Unverified
Evaluation of Table Representations to Answer Questions from Tables in Documents : A Case Study using 3GPP Specifications	Aug 30, 2024	Question AnsweringRetrieval	—Unverified
Capabilities of Gemini Models in Medicine	Apr 29, 2024	In-Context LearningMedQA	—Unverified
Evaluation of Review Summaries via Question-Answering	Dec 1, 2021	Question Answering	—Unverified
Can You Unpack That? Learning to Rewrite Questions-in-Context	Nov 1, 2019	Question Answering	—Unverified
Evaluation of RAG Metrics for Question Answering in the Telecom Domain	Jul 15, 2024	Question AnsweringRAG	—Unverified
Evaluation of Question Answering Systems: Complexity of judging a natural language	Sep 10, 2022	Question AnsweringWord Embeddings	—Unverified
Can you even tell left from right? Presenting a new challenge for VQA	Mar 15, 2022	Question AnsweringVisual Question Answering	—Unverified
Evaluation of medium-large Language Models at zero-shot closed book generative question answering	May 19, 2023	Generative Question AnsweringQuestion Answering	—Unverified
Evaluation of large language model performance on the Biomedical Language Understanding and Reasoning Benchmark	May 17, 2024	Document ClassificationLanguage Modeling	—Unverified
Can MLLMs Generalize to Multi-Party dialog? Exploring Multilingual Response Generation in Complex Scenarios	Jan 20, 2025	Question AnsweringResponse Generation	—Unverified
A Question Answering Approach for Emotion Cause Extraction	Sep 1, 2017	Emotion Cause ExtractionEmotion Classification	—Unverified
Active Reasoning in an Open-World Environment	Nov 3, 2023	Instruction FollowingMinecraft	—Unverified
Abductive Reasoning as Self-Supervision for Common Sense Question Answering	Sep 6, 2019	Common Sense ReasoningDomain Adaptation	—Unverified
TempRetriever: Fusion-based Temporal Dense Passage Retrieval for Time-Sensitive Questions	Feb 28, 2025	Information RetrievalPassage Retrieval	—Unverified
Evaluation of General Large Language Models in Contextually Assessing Semantic Concepts Extracted from Adult Critical Care Electronic Health Record Notes	Jan 24, 2024	NegationQuestion Answering	—Unverified
Evaluation of Faithfulness Using the Longest Supported Subsequence	Aug 23, 2023	DiversityQuestion Answering	—Unverified
Evaluation of Dataset Selection for Pre-Training and Fine-Tuning Transformer Language Models for Clinical Question Answering	May 1, 2020	Machine Reading ComprehensionQuestion Answering	—Unverified
Evaluation of ChatGPT on Biomedical Tasks: A Zero-Shot Comparison with Fine-Tuned Generative Transformers	Jun 7, 2023	Document ClassificationLanguage Modeling	—Unverified
Can We Infer Confidential Properties of Training Data from LLMs?	Jun 12, 2025	image-classificationImage Classification	—Unverified
Can We Generate Visual Programs Without Prompting LLMs?	Dec 11, 2024	Data AugmentationQuestion Answering	—Unverified
Evaluation of baseline information retrieval for Polish open-domain Question Answering system	Sep 1, 2013	Answer SelectionDocument Ranking	—Unverified
Evaluation of AI Chatbots for Patient-Specific EHR Questions	Jun 5, 2023	Language ModelingLanguage Modelling	—Unverified
Can We Create a Tool for General Domain Event Analysis?	May 1, 2017	Morphological AnalysisQuestion Answering	—Unverified
A Quantitative Evaluation of Natural Language Question Interpretation for Question Answering Systems	Sep 20, 2018	Question Answering	—Unverified
Evaluation for Partial Event Coreference	Jun 1, 2014	Coreference ResolutionNatural Language Inference	—Unverified
Evaluation and Enhancement of Semantic Grounding in Large Vision-Language Models	Sep 7, 2023	Question AnsweringVisual Question Answering	—Unverified
Evaluating Zero-Shot GPT-4V Performance on 3D Visual Question Answering Benchmarks	May 29, 2024	Question AnsweringVisual Question Answering	—Unverified
Can Visual Language Models Replace OCR-Based Visual Question Answering Pipelines in Production? A Case Study in Retail	Aug 28, 2024	Optical Character RecognitionOptical Character Recognition (OCR)	—Unverified
Evaluating Variable-Length Multiple-Option Lists in Chatbots and Mobile Search	May 25, 2019	Question Answering	—Unverified
Evaluating Tool-Augmented Agents in Remote Sensing Platforms	Apr 23, 2024	Question Answering	—Unverified
Evaluating the Symbol Binding Ability of Large Language Models for Multiple-Choice Questions in Vietnamese General Education	Oct 18, 2023	Multiple-choiceMultiple Choice Question Answering (MCQA)	—Unverified
Evaluating the Robustness of Machine Reading Comprehension Models to Low Resource Entity Renaming	Apr 6, 2023	Machine Reading ComprehensionQuestion Answering	—Unverified
Can Vision-Language Models Answer Face to Face Questions in the Real-World?	Mar 25, 2025	Question Answering	—Unverified
AI-KU: Using Co-Occurrence Modeling for Semantic Similarity	Aug 1, 2014	Information RetrievalLanguage Modelling	—Unverified
Active Reading Comprehension: A Dataset for Learning the Question-Answer Relationship Strategy	Jul 1, 2019	Question AnsweringReading Comprehension	—Unverified

Show:10 25 50

← PrevPage 98 of 217Next →

All datasets SQuAD2.0 SQuAD1.1 HotpotQA PIQA BoolQ COPA TriviaQA SQuAD1.1 dev Natural Questions OpenBookQA TruthfulQA MultiRC

Benchmark Results

#	Model	Metric	Claimed	Verified	Status
1	IE-Net (ensemble)	EM	90.94	—	Unverified
2	FPNet (ensemble)	EM	90.87	—	Unverified
3	IE-NetV2 (ensemble)	EM	90.86	—	Unverified
4	SA-Net on Albert (ensemble)	EM	90.72	—	Unverified
5	SA-Net-V2 (ensemble)	EM	90.68	—	Unverified
6	FPNet (ensemble)	EM	90.6	—	Unverified
7	Retro-Reader (ensemble)	EM	90.58	—	Unverified
8	EntitySpanFocusV2 (ensemble)	EM	90.52	—	Unverified
9	TransNets + SFVerifier + SFEnsembler (ensemble)	EM	90.49	—	Unverified
10	EntitySpanFocus+AT (ensemble)	EM	90.45	—	Unverified