Question Answering

Question answering can be segmented into domain-specific tasks like community question answering and knowledge-base question answering. Popular benchmark datasets for evaluation question answering systems include SQuAD, HotPotQA, bAbI, TriviaQA, WikiQA, and many others. Models for question answering are typically evaluated on metrics like EM and F1. Some recent top performing models are T5 and XLNet.

( Image credit: SQuAD )

Papers

Recently Added Most Hyped Most Active Needs Verification Most Verified

Showing 8001–8050 of 10817 papers

Title	Date	Tasks	Status
Real Life Application of a Question Answering System Using BERT Language Model	Sep 1, 2019	Language ModelingLanguage Modelling	—Unverified
FQuAD2.0: French Question Answering and knowing that you know nothing	Sep 27, 2021	ArticlesFQuAD	—Unverified
Assisting Scene Graph Generation with Self-Supervision	Aug 8, 2020	Graph GenerationImage Captioning	—Unverified
Assessment of Answers: Online Subjective Examination	Dec 1, 2012	Information RetrievalQuestion Answering	—Unverified
FQuAD: French Question Answering Dataset	Feb 14, 2020	ArticlesFQuAD	—Unverified
Goal-Oriented Semantic Communication for Wireless Visual Question Answering	Nov 3, 2024	Edge-computingQuestion Answering	—Unverified
Real-World Deployment and Evaluation of Kwame for Science, An AI Teaching Assistant for Science Education in West Africa	Feb 21, 2023	Question Answering	—Unverified
Complex Factoid Question Answering with a Free-Text Knowledge Graph	Mar 23, 2021	Graph Neural NetworkGraph Question Answering	—Unverified
Goal-Oriented Multi-Task BERT-Based Dialogue State Tracker	Feb 5, 2020	Dialogue State TrackingQuestion Answering	—Unverified
Complete Chess Games Enable LLM Become A Chess Master	Jan 26, 2025	Language ModelingLanguage Modelling	—Unverified
A Dataset for Arabic Textual Entailment	Sep 1, 2013	Natural Language InferenceQuestion Answering	—Unverified
Reimagining Retrieval Augmented Language Models for Answering Queries	Jun 1, 2023	Question AnsweringRetrieval	—Unverified
ReasonBert: Pre-trained to Reason with Distant Supervision	May 23, 2021	Extractive Question-AnsweringQuestion Answering	—Unverified
ReasonChainQA: Text-based Complex Question Answering with Explainable Evidence Chains	Oct 17, 2022	Answer GenerationDiversity	—Unverified
GNN is a Counter? Revisiting GNN for Question Answering	Oct 7, 2021	Knowledge GraphsQuestion Answering	—Unverified
Assessing Users' Reputation from Syntactic and Semantic Information in Community Question Answering	May 1, 2020	Community Question AnsweringQuestion Answering	—Unverified
Reasoning and Tools for Human-Level Forecasting	Aug 21, 2024	Decision MakingQuestion Answering	—Unverified
Reasoning Chain Based Adversarial Attack for Multi-hop Question Answering	Dec 17, 2021	Adversarial AttackMulti-hop Question Answering	—Unverified
Reasoning Court: Combining Reasoning, Action, and Judgment for Multi-Hop Reasoning	Apr 14, 2025	Fact VerificationQuestion Answering	—Unverified
Reasoning-Driven Question-Answering for Natural Language Understanding	Aug 14, 2019	Common Sense ReasoningNatural Language Inference	—Unverified
Reasoning Elicitation in Language Models via Counterfactual Feedback	Oct 2, 2024	counterfactualQuestion Answering	—Unverified
Reasoning in Conversation: Solving Subjective Tasks through Dialogue Simulation for Large Language Models	Feb 27, 2024	Dark Humor DetectionDialogue Generation	—Unverified
GMSA: Enhancing Context Compression via Group Merging and Layer Semantic Alignment	May 18, 2025	Computational EfficiencyQuestion Answering	—Unverified
Reasoning Like Program Executors	Jan 27, 2022	Logical ReasoningMath	—Unverified
Framework for Question-Answering in Sanskrit through Automated Construction of Knowledge Graphs	Oct 11, 2023	Knowledge GraphsQuestion Answering	—Unverified
Complementary Evidence Identification in Open-Domain Question Answering	Mar 22, 2021	DiversityEvidence Selection	—Unverified
AmazUtah_NLP at SemEval-2024 Task 9: A MultiChoice Question Answering System for Commonsense Defying Reasoning	May 16, 2024	Multiple-choiceQuestion Answering	—Unverified
MMLU-SR: A Benchmark for Stress-Testing Reasoning Capability of Large Language Models	Jun 15, 2024	Mathematical ReasoningMMLU	—Unverified
Framing QA as Building and Ranking Intersentence Answer Justifications	Jun 1, 2017	Multiple-choiceQuestion Answering	—Unverified
Competence-based Question Generation	Oct 1, 2022	Natural Language UnderstandingQuestion Answering	—Unverified
Reasoning over Hierarchical Question Decomposition Tree for Explainable Question Answering	May 24, 2023	Question Answering	—Unverified
Reasoning Over History: Context Aware Visual Dialog	Nov 2, 2020	coreference-resolutionCoreference Resolution	—Unverified
Reasoning over Hybrid Chain for Table-and-Text Open Domain Question Answering	Nov 16, 2021	Open-Domain Question AnsweringQuestion Answering	—Unverified
Reasoning over Hybrid Chain for Table-and-Text Open Domain QA	Jan 15, 2022	Open-Domain Question AnsweringQuestion Answering	—Unverified
Reasoning over Logically Interacted Conditions for Question Answering	May 25, 2022	Logical ReasoningQuestion Answering	—Unverified
GLUECoS: An Evaluation Benchmark for Code-Switched NLP	Jul 1, 2020	Language Identificationnamed-entity-recognition	—Unverified
Reasoning Over Virtual Knowledge Bases With Open Predicate Relations	Feb 14, 2021	Language ModelingLanguage Modelling	—Unverified
Reasoning over Vision and Language: Exploring the Benefits of Supplemental Knowledge	Jan 15, 2021	Question AnsweringVisual Question Answering (VQA)	—Unverified
GLUECoS : An Evaluation Benchmark for Code-Switched NLP	Apr 26, 2020	Language Identificationnamed-entity-recognition	—Unverified
A Comprehensive Comparison of Machine Learning Based Methods Used in Bengali Question Classification	Nov 8, 2019	BIG-bench Machine LearningClassification	—Unverified
Reasoning with Large Language Models, a Survey	Jul 16, 2024	Few-Shot LearningIn-Context Learning	—Unverified
Assessing the Verifiability of Attributions in News Text	Nov 1, 2017	Question Answering	—Unverified
Comparing Word Representations for Implicit Discourse Relation Classification	Sep 1, 2015	ClassificationFeature Engineering	—Unverified
REFIND: Retrieval-Augmented Factuality Hallucination Detection in Large Language Models	Feb 19, 2025	HallucinationLanguage Modeling	—Unverified
GlossBoot: Bootstrapping Multilingual Domain Glossaries from the Web	Aug 1, 2013	Question AnsweringWord Sense Disambiguation	—Unverified
RECALL: A Benchmark for LLMs Robustness against External Counterfactual Knowledge	Nov 14, 2023	counterfactualKnowledge Graphs	—Unverified
Comparing Recurrent and Convolutional Architectures for English-Hindi Neural Machine Translation	Nov 1, 2017	DecoderImage Captioning	—Unverified
Assessing the Robustness of Visual Question Answering Models	Nov 30, 2019	Question AnsweringVisual Question Answering	—Unverified
Recent Advances in Deep Learning Based Dialogue Systems: A Systematic Survey	May 10, 2021	Information RetrievalQuestion Answering	—Unverified
REFINE on Scarce Data: Retrieval Enhancement through Fine-Tuning via Model Fusion of Embedding Models	Oct 16, 2024	Data AugmentationLanguage Modeling	—Unverified

Show:10 25 50

← PrevPage 161 of 217Next →

All datasets SQuAD2.0 SQuAD1.1 HotpotQA PIQA BoolQ COPA TriviaQA SQuAD1.1 dev Natural Questions OpenBookQA TruthfulQA MultiRC

Benchmark Results

#	Model	Metric	Claimed	Verified	Status
1	IE-Net (ensemble)	EM	90.94	—	Unverified
2	FPNet (ensemble)	EM	90.87	—	Unverified
3	IE-NetV2 (ensemble)	EM	90.86	—	Unverified
4	SA-Net on Albert (ensemble)	EM	90.72	—	Unverified
5	SA-Net-V2 (ensemble)	EM	90.68	—	Unverified
6	FPNet (ensemble)	EM	90.6	—	Unverified
7	Retro-Reader (ensemble)	EM	90.58	—	Unverified
8	EntitySpanFocusV2 (ensemble)	EM	90.52	—	Unverified
9	TransNets + SFVerifier + SFEnsembler (ensemble)	EM	90.49	—	Unverified
10	EntitySpanFocus+AT (ensemble)	EM	90.45	—	Unverified