Question Answering

Question answering can be segmented into domain-specific tasks like community question answering and knowledge-base question answering. Popular benchmark datasets for evaluation question answering systems include SQuAD, HotPotQA, bAbI, TriviaQA, WikiQA, and many others. Models for question answering are typically evaluated on metrics like EM and F1. Some recent top performing models are T5 and XLNet.

( Image credit: SQuAD )

Papers

Recently Added Most Hyped Most Active Needs Verification Most Verified

Showing 9226–9250 of 10817 papers

Title	Date	Tasks	Status
MoleculeQA: A Dataset to Evaluate Factual Accuracy in Molecular Comprehension	Mar 13, 2024	Question Answering	CodeCode Available
Jack the Reader -- A Machine Reading Framework	Jul 1, 2018	ArticlesInformation Retrieval	CodeCode Available
Hierarchical Graph Network for Multi-hop Question Answering	Nov 9, 2019	Multi-hop Question AnsweringQuestion Answering	CodeCode Available
A Case Study of Cross-Lingual Zero-Shot Generalization for Classical Languages in LLMs	May 19, 2025	Machine Translationnamed-entity-recognition	CodeCode Available
An Evaluation Framework for Attributed Information Retrieval using Large Language Models	Sep 12, 2024	DiversityInformation Retrieval	CodeCode Available
Rethinking Label Smoothing on Multi-hop Question Answering	Dec 19, 2022	Image ClassificationMachine Reading Comprehension	CodeCode Available
Hierarchical Deep Multi-modal Network for Medical Visual Question Answering	Sep 27, 2020	DescriptiveMedical Visual Question Answering	CodeCode Available
HICD: Hallucination-Inducing via Attention Dispersion for Contrastive Decoding to Mitigate Hallucinations in Large Language Models	Mar 17, 2025	HallucinationQuestion Answering	CodeCode Available
Biomedical Event Extraction as Multi-turn Question Answering	Nov 1, 2020	Event ExtractionKnowledge Base Population	CodeCode Available
Monitoring Decomposition Attacks in LLMs with Lightweight Sequential Monitors	Jun 12, 2025	Question AnsweringSafety Alignment	CodeCode Available
Cross-lingual Information Retrieval with BERT	Apr 24, 2020	Cross-Lingual Information RetrievalDocument Ranking	CodeCode Available
Biomedical Entity Linking as Multiple Choice Question Answering	Feb 23, 2024	Entity LinkingMultiple-choice	CodeCode Available
Monolingual or Multilingual Instruction Tuning: Which Makes a Better Alpaca	Sep 16, 2023	Instruction FollowingLarge Language Model	CodeCode Available
A Bias-Variance-Covariance Decomposition of Kernel Scores for Generative Models	Oct 9, 2023	Image GenerationQuestion Answering	CodeCode Available
Functorial Question Answering	May 17, 2019	Question AnsweringSentence	CodeCode Available
HeySQuAD: A Spoken Question Answering Dataset	Apr 26, 2023	Question Answering	CodeCode Available
JMLR: Joint Medical LLM and Retrieval Training for Enhancing Reasoning and Professional Question Answering Capability	Feb 27, 2024	GPUInformation Retrieval	CodeCode Available
JNLP Team: Deep Learning for Legal Processing in COLIEE 2020	Nov 4, 2020	Deep LearningInformation Retrieval	CodeCode Available
Cross-lingual Inference with A Chinese Entailment Graph	Mar 11, 2022	Entity TypingQuestion Answering	CodeCode Available
"John is 50 years old, can his son be 65?" Evaluating NLP Models' Understanding of Feasibility	Oct 14, 2022	Binary ClassificationQuestion Answering	CodeCode Available
Joint Answering and Explanation for Visual Commonsense Reasoning	Feb 25, 2022	Knowledge DistillationQuestion Answering	CodeCode Available
CROPE: Evaluating In-Context Adaptation of Vision and Language Models to Culture-Specific Concepts	Oct 20, 2024	Question AnsweringVisual Question Answering	CodeCode Available
More Accurate Question Answering on Freebase	Oct 1, 2015	Learning-To-RankQuestion Answering	CodeCode Available
CRiskEval: A Chinese Multi-Level Risk Evaluation Benchmark Dataset for Large Language Models	Jun 7, 2024	Multiple-choicePhilosophy	CodeCode Available
A Neuro-Symbolic ASP Pipeline for Visual Question Answering	May 16, 2022	Question AnsweringVisual Question Answering	CodeCode Available

Show:10 25 50

← PrevPage 370 of 433Next →

All datasets SQuAD2.0 SQuAD1.1 HotpotQA PIQA BoolQ COPA TriviaQA SQuAD1.1 dev Natural Questions OpenBookQA TruthfulQA MultiRC

Benchmark Results

#	Model	Metric	Claimed	Verified	Status
1	IE-Net (ensemble)	EM	90.94	—	Unverified
2	FPNet (ensemble)	EM	90.87	—	Unverified
3	IE-NetV2 (ensemble)	EM	90.86	—	Unverified
4	SA-Net on Albert (ensemble)	EM	90.72	—	Unverified
5	SA-Net-V2 (ensemble)	EM	90.68	—	Unverified
6	FPNet (ensemble)	EM	90.6	—	Unverified
7	Retro-Reader (ensemble)	EM	90.58	—	Unverified
8	EntitySpanFocusV2 (ensemble)	EM	90.52	—	Unverified
9	TransNets + SFVerifier + SFEnsembler (ensemble)	EM	90.49	—	Unverified
10	EntitySpanFocus+AT (ensemble)	EM	90.45	—	Unverified