Question Answering

Question answering can be segmented into domain-specific tasks like community question answering and knowledge-base question answering. Popular benchmark datasets for evaluation question answering systems include SQuAD, HotPotQA, bAbI, TriviaQA, WikiQA, and many others. Models for question answering are typically evaluated on metrics like EM and F1. Some recent top performing models are T5 and XLNet.

( Image credit: SQuAD )

Papers

Recently Added Most Hyped Most Active Needs Verification Most Verified

Showing 8001–8025 of 10817 papers

Title	Date	Tasks	Status
Real Life Application of a Question Answering System Using BERT Language Model	Sep 1, 2019	Language ModelingLanguage Modelling	—Unverified
FQuAD2.0: French Question Answering and knowing that you know nothing	Sep 27, 2021	ArticlesFQuAD	—Unverified
RedStone: Curating General, Code, Math, and QA Data for Large Language Models	Dec 4, 2024	Domain AdaptationMath	—Unverified
GNN is a Counter? Revisiting GNN for Question Answering	Oct 7, 2021	Knowledge GraphsQuestion Answering	—Unverified
FQuAD: French Question Answering Dataset	Feb 14, 2020	ArticlesFQuAD	—Unverified
Assessing Users' Reputation from Syntactic and Semantic Information in Community Question Answering	May 1, 2020	Community Question AnsweringQuestion Answering	—Unverified
Real-World Deployment and Evaluation of Kwame for Science, An AI Teaching Assistant for Science Education in West Africa	Feb 21, 2023	Question Answering	—Unverified
GMSA: Enhancing Context Compression via Group Merging and Layer Semantic Alignment	May 18, 2025	Computational EfficiencyQuestion Answering	—Unverified
Complementary Evidence Identification in Open-Domain Question Answering	Mar 22, 2021	DiversityEvidence Selection	—Unverified
AmazUtah_NLP at SemEval-2024 Task 9: A MultiChoice Question Answering System for Commonsense Defying Reasoning	May 16, 2024	Multiple-choiceQuestion Answering	—Unverified
Competence-based Question Generation	Oct 1, 2022	Natural Language UnderstandingQuestion Answering	—Unverified
GLUECoS: An Evaluation Benchmark for Code-Switched NLP	Jul 1, 2020	Language Identificationnamed-entity-recognition	—Unverified
ReasonBert: Pre-trained to Reason with Distant Supervision	May 23, 2021	Extractive Question-AnsweringQuestion Answering	—Unverified
ReasonChainQA: Text-based Complex Question Answering with Explainable Evidence Chains	Oct 17, 2022	Answer GenerationDiversity	—Unverified
GLUECoS : An Evaluation Benchmark for Code-Switched NLP	Apr 26, 2020	Language Identificationnamed-entity-recognition	—Unverified
A Comprehensive Comparison of Machine Learning Based Methods Used in Bengali Question Classification	Nov 8, 2019	BIG-bench Machine LearningClassification	—Unverified
Reasoning and Tools for Human-Level Forecasting	Aug 21, 2024	Decision MakingQuestion Answering	—Unverified
Reasoning Chain Based Adversarial Attack for Multi-hop Question Answering	Dec 17, 2021	Adversarial AttackMulti-hop Question Answering	—Unverified
Reasoning Court: Combining Reasoning, Action, and Judgment for Multi-Hop Reasoning	Apr 14, 2025	Fact VerificationQuestion Answering	—Unverified
Reasoning-Driven Question-Answering for Natural Language Understanding	Aug 14, 2019	Common Sense ReasoningNatural Language Inference	—Unverified
Reasoning Elicitation in Language Models via Counterfactual Feedback	Oct 2, 2024	counterfactualQuestion Answering	—Unverified
Reasoning in Conversation: Solving Subjective Tasks through Dialogue Simulation for Large Language Models	Feb 27, 2024	Dark Humor DetectionDialogue Generation	—Unverified
Assessing the Verifiability of Attributions in News Text	Nov 1, 2017	Question Answering	—Unverified
Reasoning Like Program Executors	Jan 27, 2022	Logical ReasoningMath	—Unverified
Recursive Question Understanding for Complex Question Answering over Heterogeneous Personal Data	May 17, 2025	Language ModelingLanguage Modelling	—Unverified

Show:10 25 50

← PrevPage 321 of 433Next →

All datasets SQuAD2.0 SQuAD1.1 HotpotQA PIQA BoolQ COPA TriviaQA SQuAD1.1 dev Natural Questions OpenBookQA TruthfulQA MultiRC

Benchmark Results

#	Model	Metric	Claimed	Verified	Status
1	IE-Net (ensemble)	EM	90.94	—	Unverified
2	FPNet (ensemble)	EM	90.87	—	Unverified
3	IE-NetV2 (ensemble)	EM	90.86	—	Unverified
4	SA-Net on Albert (ensemble)	EM	90.72	—	Unverified
5	SA-Net-V2 (ensemble)	EM	90.68	—	Unverified
6	FPNet (ensemble)	EM	90.6	—	Unverified
7	Retro-Reader (ensemble)	EM	90.58	—	Unverified
8	EntitySpanFocusV2 (ensemble)	EM	90.52	—	Unverified
9	TransNets + SFVerifier + SFEnsembler (ensemble)	EM	90.49	—	Unverified
10	EntitySpanFocus+AT (ensemble)	EM	90.45	—	Unverified