Question Answering

Question answering can be segmented into domain-specific tasks like community question answering and knowledge-base question answering. Popular benchmark datasets for evaluation question answering systems include SQuAD, HotPotQA, bAbI, TriviaQA, WikiQA, and many others. Models for question answering are typically evaluated on metrics like EM and F1. Some recent top performing models are T5 and XLNet.

( Image credit: SQuAD )

Papers

Recently Added Most Hyped Most Active Needs Verification Most Verified

Showing 10676–10700 of 10817 papers

Title	Date	Tasks	Status
SUNNYNLP at SemEval-2018 Task 10: A Support-Vector-Machine-Based Method for Detecting Semantic Difference using Taxonomy and Word Embedding Features	Jun 1, 2018	Dialogue State TrackingQuestion Answering	CodeCode Available
There is No Big Brother or Small Brother: Knowledge Infusion in Language Models for Link Prediction and Question Answering	Jan 10, 2023	Knowledge GraphsLink Prediction	CodeCode Available
Similar Cases Recommendation using Legal Knowledge Graphs	Jul 10, 2021	Knowledge GraphsQuestion Answering	CodeCode Available
WikiCausal: Corpus and Evaluation Framework for Causal Knowledge Graph Construction	Aug 31, 2024	Articlesgraph construction	CodeCode Available
You don't need a personality test to know these models are unreliable: Assessing the Reliability of Large Language Models on Psychometric Instruments	Nov 16, 2023	Natural Language UnderstandingNegation	CodeCode Available
Sim2Real Transfer for Vision-Based Grasp Verification	May 5, 2025	Objectobject-detection	CodeCode Available
The Promise of Premise: Harnessing Question Premises in Visual Question Answering	May 1, 2017	Question AnsweringRelevance Detection	CodeCode Available
The price of debiasing automatic metrics in natural language evaluation	Jul 6, 2018	Question Answering	CodeCode Available
The Neuro-Symbolic Concept Learner: Interpreting Scenes, Words, and Sentences From Natural Supervision	Apr 26, 2019	Image-text RetrievalObject	CodeCode Available
WeCheck: Strong Factual Consistency Checker via Weakly Supervised Learning	Dec 20, 2022	Natural Language InferenceQuestion Answering	CodeCode Available
Subjective Question Answering: Deciphering the inner workings of Transformers in the realm of subjectivity	Jun 2, 2020	Opinion MiningQuestion Answering	CodeCode Available
Universal Semantic Parsing	Feb 10, 2017	Question AnsweringSemantic Parsing	CodeCode Available
Weisfeiler and Leman Go Relational	Nov 30, 2022	Knowledge GraphsLogical Reasoning	CodeCode Available
Structured Triplet Learning with POS-tag Guided Attention for Visual Question Answering	Jan 24, 2018	Multiple-choicePOS	CodeCode Available
Zero-shot Translation of Attention Patterns in VQA Models to Natural Language	Nov 8, 2023	Image CaptioningLanguage Modeling	CodeCode Available
Visual Choice of Plausible Alternatives: An Evaluation of Image-based Commonsense Causal Reasoning	May 1, 2018	Commonsense Causal ReasoningImage Captioning	CodeCode Available
Unlearning Sensitive Information in Multimodal LLMs: Benchmark and Attack-Defense Evaluation	May 1, 2025	Question AnsweringSpecificity	CodeCode Available
Structural Self-Supervised Objectives for Transformers	Sep 15, 2023	Fact VerificationLanguage Modeling	CodeCode Available
Unleashing the Potentials of Likelihood Composition for Multi-modal Language Models	Oct 1, 2024	Question AnsweringVisual Question Answering	CodeCode Available
Evaluating Search Engines and Large Language Models for Answering Health Questions	Jul 17, 2024	MisinformationNavigate	CodeCode Available
Unlocking Anticipatory Text Generation: A Constrained Approach for Large Language Models Decoding	Dec 11, 2023	Question AnsweringText Generation	CodeCode Available
The NarrativeQA Reading Comprehension Challenge	Dec 19, 2017	Information RetrievalQuestion Answering	CodeCode Available
Unlocking Markets: A Multilingual Benchmark to Cross-Market Question Answering	Sep 24, 2024	Answer GenerationQuestion Answering	CodeCode Available
Visual Contexts Clarify Ambiguous Expressions: A Benchmark Dataset	Nov 21, 2024	Question AnsweringVisual Grounding	CodeCode Available
Stochastic Answer Networks for SQuAD 2.0	Sep 24, 2018	Machine Reading ComprehensionQuestion Answering	CodeCode Available

Show:10 25 50

← PrevPage 428 of 433Next →

All datasets SQuAD2.0 SQuAD1.1 HotpotQA PIQA BoolQ COPA TriviaQA SQuAD1.1 dev Natural Questions OpenBookQA TruthfulQA MultiRC

Benchmark Results

#	Model	Metric	Claimed	Verified	Status
1	IE-Net (ensemble)	EM	90.94	—	Unverified
2	FPNet (ensemble)	EM	90.87	—	Unverified
3	IE-NetV2 (ensemble)	EM	90.86	—	Unverified
4	SA-Net on Albert (ensemble)	EM	90.72	—	Unverified
5	SA-Net-V2 (ensemble)	EM	90.68	—	Unverified
6	FPNet (ensemble)	EM	90.6	—	Unverified
7	Retro-Reader (ensemble)	EM	90.58	—	Unverified
8	EntitySpanFocusV2 (ensemble)	EM	90.52	—	Unverified
9	TransNets + SFVerifier + SFEnsembler (ensemble)	EM	90.49	—	Unverified
10	EntitySpanFocus+AT (ensemble)	EM	90.45	—	Unverified