Question Answering

Question answering can be segmented into domain-specific tasks like community question answering and knowledge-base question answering. Popular benchmark datasets for evaluation question answering systems include SQuAD, HotPotQA, bAbI, TriviaQA, WikiQA, and many others. Models for question answering are typically evaluated on metrics like EM and F1. Some recent top performing models are T5 and XLNet.

( Image credit: SQuAD )

Papers

Recently Added Most Hyped Most Active Needs Verification Most Verified

Showing 9976–10000 of 10817 papers

Title	Date	Tasks	Status
Evaluating Fairness in Large Vision-Language Models Across Diverse Demographic Attributes and Prompts	Jun 25, 2024	FairnessQuestion Answering	CodeCode Available
Evaluating Explanations: How much do explanations from the teacher aid students?	Dec 1, 2020	Question Answeringtext-classification	CodeCode Available
Evaluating Dependencies in Fact Editing for Language Models: Specificity and Implication Awareness	Dec 4, 2023	knowledge editingLanguage Modeling	CodeCode Available
Evaluating Coreference Resolvers on Community-based Question Answering: From Rule-based to State of the Art	Oct 1, 2022	Answer Selectioncoreference-resolution	CodeCode Available
RACQUET: Unveiling the Dangers of Overlooked Referential Ambiguity in Visual LLMs	Dec 18, 2024	Question Answering	CodeCode Available
Llama SLayer 8B: Shallow Layers Hold the Key to Knowledge Injection	Oct 3, 2024	Mathparameter-efficient fine-tuning	CodeCode Available
Evaluating Commonsense in Pre-trained Language Models	Nov 27, 2019	Language ModelingLanguage Modelling	CodeCode Available
NLPContributions: An Annotation Scheme for Machine Reading of Scholarly Contributions in Natural Language Processing Literature	Jun 23, 2020	ArticlesMachine Translation	CodeCode Available
Fine-Grained Stateful Knowledge Exploration: A Novel Paradigm for Integrating Knowledge Graphs with Large Language Models	Jan 24, 2024	Knowledge Base Question AnsweringKnowledge Graphs	CodeCode Available
Evaluating Attribute Comprehension in Large Vision-Language Models	Aug 25, 2024	AttributeImage-text matching	CodeCode Available
EuSQuAD: Automatically Translated and Aligned SQuAD2.0 for Basque	Apr 18, 2024	Question Answering	CodeCode Available
ETPC - A Paraphrase Identification Corpus Annotated with Extended Paraphrase Typology and Negation	May 1, 2018	Natural Language InferenceNegation	CodeCode Available
Ethical-Advice Taker: Do Language Models Understand Natural Language Interventions?	Jun 2, 2021	EthicsFew-Shot Learning	CodeCode Available
Reasoning over Uncertain Text by Generative Large Language Models	Feb 14, 2024	Decision MakingMathematical Reasoning	CodeCode Available
ERVQA: A Dataset to Benchmark the Readiness of Large Vision Language Models in Hospital Environments	Oct 8, 2024	DecoderQuestion Answering	CodeCode Available
ERNIE-Layout: Layout-Knowledge Enhanced Multi-modal Pre-training for Document Understanding	Jan 16, 2022	cross-modal alignmentDocument Classification	CodeCode Available
ERNIE-Doc: A Retrospective Long-Document Modeling Transformer	Dec 31, 2020	Language ModelingLanguage Modelling	CodeCode Available
RadioRAG: Factual large language models for enhanced diagnostics in radiology using online retrieval augmented generation	Jul 22, 2024	DiagnosticQuestion Answering	CodeCode Available
NLProlog: Reasoning with Weak Unification for Question Answering in Natural Language	Jun 14, 2019	Question AnsweringSentence	CodeCode Available
EQuANt (Enhanced Question Answer Network)	Jun 24, 2019	Machine Reading ComprehensionMulti-Task Learning	CodeCode Available
Closed-book Question Generation via Contrastive Learning	Oct 13, 2022	Contrastive LearningNatural Questions	CodeCode Available
LLM-as-a-Judge: Reassessing the Performance of LLMs in Extractive QA	Apr 16, 2025	Question AnsweringReading Comprehension	CodeCode Available
NLQxform: A Language Model-based Question to SPARQL Transformer	Nov 8, 2023	Graph Question AnsweringKnowledge Graphs	CodeCode Available
LLM-Assisted Multi-Teacher Continual Learning for Visual Question Answering in Robotic Surgery	Feb 26, 2024	Continual LearningExemplar-Free	CodeCode Available
Probing Commonsense Knowledge in Pre-trained Language Models with Sense-level Precision and Expanded Vocabulary	Oct 12, 2022	Question Answering	CodeCode Available

Show:10 25 50

← PrevPage 400 of 433Next →

All datasets SQuAD2.0 SQuAD1.1 HotpotQA PIQA BoolQ COPA TriviaQA SQuAD1.1 dev Natural Questions OpenBookQA TruthfulQA MultiRC

Benchmark Results

#	Model	Metric	Claimed	Verified	Status
1	IE-Net (ensemble)	EM	90.94	—	Unverified
2	FPNet (ensemble)	EM	90.87	—	Unverified
3	IE-NetV2 (ensemble)	EM	90.86	—	Unverified
4	SA-Net on Albert (ensemble)	EM	90.72	—	Unverified
5	SA-Net-V2 (ensemble)	EM	90.68	—	Unverified
6	FPNet (ensemble)	EM	90.6	—	Unverified
7	Retro-Reader (ensemble)	EM	90.58	—	Unverified
8	EntitySpanFocusV2 (ensemble)	EM	90.52	—	Unverified
9	TransNets + SFVerifier + SFEnsembler (ensemble)	EM	90.49	—	Unverified
10	EntitySpanFocus+AT (ensemble)	EM	90.45	—	Unverified