Question Answering

Question answering can be segmented into domain-specific tasks like community question answering and knowledge-base question answering. Popular benchmark datasets for evaluation question answering systems include SQuAD, HotPotQA, bAbI, TriviaQA, WikiQA, and many others. Models for question answering are typically evaluated on metrics like EM and F1. Some recent top performing models are T5 and XLNet.

( Image credit: SQuAD )

Papers

Recently Added Most Hyped Most Active Needs Verification Most Verified

Showing 3501–3550 of 10817 papers

Title	Date	Tasks	Status
Evaluating the Representational Hub of Language and Vision Models	Apr 12, 2019	DiagnosticQuestion Answering	—Unverified
Evaluating the Retrieval Component in LLM-Based Question Answering Systems	Jun 10, 2024	Information RetrievalQuestion Answering	—Unverified
Do You Know That Florence Is Packed with Visitors? Evaluating State-of-the-art Models of Speaker Commitment	Jul 1, 2019	NegationQuestion Answering	—Unverified
Evaluating the Symbol Binding Ability of Large Language Models for Multiple-Choice Questions in Vietnamese General Education	Oct 18, 2023	Multiple-choiceMultiple Choice Question Answering (MCQA)	—Unverified
LLMs May Perform MCQA by Selecting the Least Incorrect Option	Feb 2, 2024	Multiple-choiceMultiple Choice Question Answering (MCQA)	—Unverified
Evaluating Variable-Length Multiple-Option Lists in Chatbots and Mobile Search	May 25, 2019	Question Answering	—Unverified
A Concrete Chinese NLP Pipeline	Jun 1, 2015	Coreference ResolutionEntity Linking	—Unverified
Beyond Text: Implementing Multimodal Large Language Model-Powered Multi-Agent Systems Using a No-Code Platform	Jan 1, 2025	Code GenerationImage Generation	—Unverified
Evaluation and Enhancement of Semantic Grounding in Large Vision-Language Models	Sep 7, 2023	Question AnsweringVisual Question Answering	—Unverified
Evaluation for Partial Event Coreference	Jun 1, 2014	Coreference ResolutionNatural Language Inference	—Unverified
Do We Need to Differentiate Negative Candidates Before Training a Neural Ranker?	Nov 16, 2021	Data AugmentationQuestion Answering	—Unverified
Evaluation of baseline information retrieval for Polish open-domain Question Answering system	Sep 1, 2013	Answer SelectionDocument Ranking	—Unverified
An Online Question Answering System based on Sub-graph Searching	Jul 29, 2021	Answer GenerationKnowledge Graphs	—Unverified
Entity Retrieval for Answering Entity-Centric Questions	Aug 5, 2024	Entity RetrievalQuestion Answering	—Unverified
Evaluation of ChatGPT on Biomedical Tasks: A Zero-Shot Comparison with Fine-Tuned Generative Transformers	Jun 7, 2023	Document ClassificationLanguage Modeling	—Unverified
Evaluation of Dataset Selection for Pre-Training and Fine-Tuning Transformer Language Models for Clinical Question Answering	May 1, 2020	Machine Reading ComprehensionQuestion Answering	—Unverified
Evaluation of Faithfulness Using the Longest Supported Subsequence	Aug 23, 2023	DiversityQuestion Answering	—Unverified
Evaluation of General Large Language Models in Contextually Assessing Semantic Concepts Extracted from Adult Critical Care Electronic Health Record Notes	Jan 24, 2024	NegationQuestion Answering	—Unverified
FinTextQA: A Dataset for Long-form Financial Question Answering	May 16, 2024	DiversityForm	—Unverified
First approach toward Semantic Role Labeling for Basque	May 1, 2014	feature selectionMachine Translation	—Unverified
Evaluation of Question Answering Systems: Complexity of judging a natural language	Sep 10, 2022	Question AnsweringWord Embeddings	—Unverified
Evaluation of RAG Metrics for Question Answering in the Telecom Domain	Jul 15, 2024	Question AnsweringRAG	—Unverified
Evaluation of Review Summaries via Question-Answering	Dec 1, 2021	Question Answering	—Unverified
Can You Unpack That? Learning to Rewrite Questions-in-Context	Nov 1, 2019	Question Answering	—Unverified
Evaluation of Table Representations to Answer Questions from Tables in Documents : A Case Study using 3GPP Specifications	Aug 30, 2024	Question AnsweringRetrieval	—Unverified
Evaluation of the KomParse Conversational Non-Player Characters in a Commercial Virtual World	May 1, 2012	Natural Language UnderstandingQuestion Answering	—Unverified
Evaluation of Transfer Learning for Polish with a text-to-text model	Oct 16, 2021	DecoderDenoising	—Unverified
Evaluation of Transfer Learning for Polish with a Text-to-Text Model	May 18, 2022	DecoderDenoising	—Unverified
Evaluation of Two-level Dependency Representations of Argument Structure in Long-Distance Dependencies	Aug 1, 2015	Dependency ParsingQuestion Answering	—Unverified
Evaluation Paradigms in Question Answering	Nov 1, 2021	PositionQuestion Answering	—Unverified
EVE: Efficient Vision-Language Pre-training with Masked Prediction and Modality-Aware MoE	Aug 23, 2023	Image-text matchingImage-text Retrieval	—Unverified
Event analysis for information extraction from business-based technical documents	Jun 1, 2015	Question Answering	—Unverified
Event-Based Time Label Propagation for Automatic Dating of News Articles	Oct 1, 2013	ArticlesInformation Retrieval	—Unverified
AIPatient: Simulating Patients with EHRs and LLM Powered Agentic Workflow	Sep 27, 2024	Medical Question AnsweringQuestion Answering	—Unverified
On the Need of Cross Validation for Discourse Relation Classification	Apr 1, 2017	ClassificationGeneral Classification	—Unverified
Event Detection via Derangement Question Answering	Nov 16, 2021	Event DetectionQuestion Answering	—Unverified
Event Extraction as Machine Reading Comprehension	Nov 1, 2020	Event Argument ExtractionEvent Extraction	—Unverified
Event Extraction as Multi-turn Question Answering	Nov 1, 2020	Event ExtractionQuestion Answering	—Unverified
Do Vision-Language Transformers Exhibit Visual Commonsense? An Empirical Study of VCR	May 27, 2024	Question AnsweringTAG	—Unverified
Double Visual Defense: Adversarial Pre-training and Instruction Tuning for Improving Vision-Language Model Robustness	Jan 16, 2025	Adversarial DefenseAdversarial Robustness	—Unverified
Event Extraction for Portuguese: A QA-driven Approach using ACE-2005	Aug 29, 2024	Event ExtractionInformation Retrieval	—Unverified
CapWAP: Captioning with a Purpose	Nov 9, 2020	Image CaptioningQuestion Answering	—Unverified
Double Topic Shifts in Open Domain Conversations: Natural Language Interface for a Wikipedia-based Robot Application	Dec 1, 2016	ArticlesChatbot	—Unverified
Event-Related Features in Feedforward Neural Networks Contribute to Identifying Causal Relations in Discourse	Apr 1, 2017	PositionQuestion Answering	—Unverified
EventWiki: A Knowledge Base of Major Events	May 1, 2018	Question AnsweringSemantic Parsing	—Unverified
Everything Can Be Described in Words: A Simple Unified Multi-Modal Framework with Semantic and Temporal Alignment	Mar 12, 2025	Automatic Speech RecognitionAutomatic Speech Recognition (ASR)	—Unverified
Everything is a Video: Unifying Modalities through Next-Frame Prediction	Nov 15, 2024	Caption GenerationCross-Modal Retrieval	—Unverified
CARE: A QLoRA-Fine Tuned Multi-Domain Chatbot With Fast Learning On Minimal Hardware	Mar 18, 2025	ChatbotQuestion Answering	—Unverified
Beyond Sentential Semantic Parsing: Tackling the Math SAT with a Cascade of Tree Transducers	Sep 1, 2017	coreference-resolutionCoreference Resolution	—Unverified
Annotation Scheme for Constructing Sentiment Corpus in Korean	Nov 1, 2012	Document ClassificationQuestion Answering	—Unverified

Show:10 25 50

← PrevPage 71 of 217Next →

All datasets SQuAD2.0 SQuAD1.1 HotpotQA PIQA BoolQ COPA TriviaQA SQuAD1.1 dev Natural Questions OpenBookQA TruthfulQA MultiRC

Benchmark Results

#	Model	Metric	Claimed	Verified	Status
1	IE-Net (ensemble)	EM	90.94	—	Unverified
2	FPNet (ensemble)	EM	90.87	—	Unverified
3	IE-NetV2 (ensemble)	EM	90.86	—	Unverified
4	SA-Net on Albert (ensemble)	EM	90.72	—	Unverified
5	SA-Net-V2 (ensemble)	EM	90.68	—	Unverified
6	FPNet (ensemble)	EM	90.6	—	Unverified
7	Retro-Reader (ensemble)	EM	90.58	—	Unverified
8	EntitySpanFocusV2 (ensemble)	EM	90.52	—	Unverified
9	TransNets + SFVerifier + SFEnsembler (ensemble)	EM	90.49	—	Unverified
10	EntitySpanFocus+AT (ensemble)	EM	90.45	—	Unverified