Question Answering

Question answering can be segmented into domain-specific tasks like community question answering and knowledge-base question answering. Popular benchmark datasets for evaluation question answering systems include SQuAD, HotPotQA, bAbI, TriviaQA, WikiQA, and many others. Models for question answering are typically evaluated on metrics like EM and F1. Some recent top performing models are T5 and XLNet.

( Image credit: SQuAD )

Papers

Recently Added Most Hyped Most Active Needs Verification Most Verified

Showing 8026–8050 of 10817 papers

Title	Date	Tasks	Status
Complementary Evidence Identification in Open-Domain Question Answering	Mar 22, 2021	DiversityEvidence Selection	—Unverified
AmazUtah_NLP at SemEval-2024 Task 9: A MultiChoice Question Answering System for Commonsense Defying Reasoning	May 16, 2024	Multiple-choiceQuestion Answering	—Unverified
MMLU-SR: A Benchmark for Stress-Testing Reasoning Capability of Large Language Models	Jun 15, 2024	Mathematical ReasoningMMLU	—Unverified
Framing QA as Building and Ranking Intersentence Answer Justifications	Jun 1, 2017	Multiple-choiceQuestion Answering	—Unverified
Competence-based Question Generation	Oct 1, 2022	Natural Language UnderstandingQuestion Answering	—Unverified
Reasoning over Hierarchical Question Decomposition Tree for Explainable Question Answering	May 24, 2023	Question Answering	—Unverified
Reasoning Over History: Context Aware Visual Dialog	Nov 2, 2020	coreference-resolutionCoreference Resolution	—Unverified
Reasoning over Hybrid Chain for Table-and-Text Open Domain Question Answering	Nov 16, 2021	Open-Domain Question AnsweringQuestion Answering	—Unverified
Reasoning over Hybrid Chain for Table-and-Text Open Domain QA	Jan 15, 2022	Open-Domain Question AnsweringQuestion Answering	—Unverified
Reasoning over Logically Interacted Conditions for Question Answering	May 25, 2022	Logical ReasoningQuestion Answering	—Unverified
GLUECoS: An Evaluation Benchmark for Code-Switched NLP	Jul 1, 2020	Language Identificationnamed-entity-recognition	—Unverified
Reasoning Over Virtual Knowledge Bases With Open Predicate Relations	Feb 14, 2021	Language ModelingLanguage Modelling	—Unverified
Reasoning over Vision and Language: Exploring the Benefits of Supplemental Knowledge	Jan 15, 2021	Question AnsweringVisual Question Answering (VQA)	—Unverified
GLUECoS : An Evaluation Benchmark for Code-Switched NLP	Apr 26, 2020	Language Identificationnamed-entity-recognition	—Unverified
A Comprehensive Comparison of Machine Learning Based Methods Used in Bengali Question Classification	Nov 8, 2019	BIG-bench Machine LearningClassification	—Unverified
Reasoning with Large Language Models, a Survey	Jul 16, 2024	Few-Shot LearningIn-Context Learning	—Unverified
Assessing the Verifiability of Attributions in News Text	Nov 1, 2017	Question Answering	—Unverified
Comparing Word Representations for Implicit Discourse Relation Classification	Sep 1, 2015	ClassificationFeature Engineering	—Unverified
REFIND: Retrieval-Augmented Factuality Hallucination Detection in Large Language Models	Feb 19, 2025	HallucinationLanguage Modeling	—Unverified
GlossBoot: Bootstrapping Multilingual Domain Glossaries from the Web	Aug 1, 2013	Question AnsweringWord Sense Disambiguation	—Unverified
RECALL: A Benchmark for LLMs Robustness against External Counterfactual Knowledge	Nov 14, 2023	counterfactualKnowledge Graphs	—Unverified
Comparing Recurrent and Convolutional Architectures for English-Hindi Neural Machine Translation	Nov 1, 2017	DecoderImage Captioning	—Unverified
Assessing the Robustness of Visual Question Answering Models	Nov 30, 2019	Question AnsweringVisual Question Answering	—Unverified
Recent Advances in Deep Learning Based Dialogue Systems: A Systematic Survey	May 10, 2021	Information RetrievalQuestion Answering	—Unverified
REFINE on Scarce Data: Retrieval Enhancement through Fine-Tuning via Model Fusion of Embedding Models	Oct 16, 2024	Data AugmentationLanguage Modeling	—Unverified

Show:10 25 50

← PrevPage 322 of 433Next →

All datasets SQuAD2.0 SQuAD1.1 HotpotQA PIQA BoolQ COPA TriviaQA SQuAD1.1 dev Natural Questions OpenBookQA TruthfulQA MultiRC

Benchmark Results

#	Model	Metric	Claimed	Verified	Status
1	IE-Net (ensemble)	EM	90.94	—	Unverified
2	FPNet (ensemble)	EM	90.87	—	Unverified
3	IE-NetV2 (ensemble)	EM	90.86	—	Unverified
4	SA-Net on Albert (ensemble)	EM	90.72	—	Unverified
5	SA-Net-V2 (ensemble)	EM	90.68	—	Unverified
6	FPNet (ensemble)	EM	90.6	—	Unverified
7	Retro-Reader (ensemble)	EM	90.58	—	Unverified
8	EntitySpanFocusV2 (ensemble)	EM	90.52	—	Unverified
9	TransNets + SFVerifier + SFEnsembler (ensemble)	EM	90.49	—	Unverified
10	EntitySpanFocus+AT (ensemble)	EM	90.45	—	Unverified