Question Answering

Question answering can be segmented into domain-specific tasks like community question answering and knowledge-base question answering. Popular benchmark datasets for evaluation question answering systems include SQuAD, HotPotQA, bAbI, TriviaQA, WikiQA, and many others. Models for question answering are typically evaluated on metrics like EM and F1. Some recent top performing models are T5 and XLNet.

( Image credit: SQuAD )

Papers

Recently Added Most Hyped Most Active Needs Verification Most Verified

Showing 10026–10050 of 10817 papers

Title	Date	Tasks	Status
Towards Answering Climate Questionnaires from Unstructured Climate Reports	Jan 11, 2023	Question Answeringtext-classification	CodeCode Available
Ensemble Transformer for Efficient and Accurate Ranking Tasks: an Application to Question Answering Systems	Jan 15, 2022	DiversityEfficient Neural Network	CodeCode Available
Ensemble ALBERT on SQuAD 2.0	Oct 19, 2021	Question Answering	CodeCode Available
No perspective, no perception!! Perspective-aware Healthcare Answer Summarization	Jun 13, 2024	Community Question AnsweringQuestion Answering	CodeCode Available
Applying recent advances in Visual Question Answering to Record Linkage	Jul 12, 2020	Question AnsweringVisual Question Answering	CodeCode Available
Spoken Question Answering and Speech Continuation Using Spectrogram-Powered LLM	May 24, 2023	Language ModellingQuestion Answering	CodeCode Available
Enhancing Vietnamese VQA through Curriculum Learning on Raw and Augmented Text Representations	Mar 5, 2025	Question AnsweringVisual Question Answering	CodeCode Available
NORMY: Non-Uniform History Modeling for Open Retrieval Conversational Question Answering	Feb 7, 2024	Conversational Question AnsweringKeyphrase Extraction	CodeCode Available
Enhancing the Transformer with Explicit Relational Encoding for Math Problem Solving	Oct 15, 2019	MathQuestion Answering	CodeCode Available
CLIFT: Analysing Natural Distribution Shift on Question Answering Models in Clinical Domain	Oct 19, 2023	Question Answering	CodeCode Available
AMQA: An Adversarial Dataset for Benchmarking Bias of LLMs in Medicine and Healthcare	May 26, 2025	BenchmarkingMedical Diagnosis	CodeCode Available
CLEVR-Ref+: Diagnosing Visual Reasoning with Referring Expressions	Jan 3, 2019	DiagnosticImage Segmentation	CodeCode Available
Localizing Open-Ontology QA Semantic Parsers in a Day Using Machine Translation	Oct 10, 2020	Machine TranslationNMT	CodeCode Available
Locally Smoothed Neural Networks	Nov 22, 2017	Face VerificationQuestion Answering	CodeCode Available
LocalRQA: From Generating Data to Locally Training, Testing, and Deploying Retrieval-Augmented QA Systems	Mar 1, 2024	Question AnsweringRetrieval	CodeCode Available
CLEVR\_HYP: A Challenge Dataset and Baselines for Visual Question Answering with Hypothetical Actions over Images	Jun 1, 2021	Question AnsweringVisual Question Answering	CodeCode Available
Enhancing the AI2 Diagrams Dataset Using Rhetorical Structure Theory	May 1, 2018	Question AnsweringVisual Question Answering (VQA)	CodeCode Available
Applying Deep Learning to Answer Selection: A Study and An Open Task	Aug 7, 2015	Answer SelectionQuestion Answering	CodeCode Available
Enhancing textual textbook question answering with large language models and retrieval augmented generation	Feb 5, 2024	Multiple-choiceQuestion Answering	CodeCode Available
Location Aware Modular Biencoder for Tourism Question Answering	Jan 4, 2024	Question AnsweringRetrieval	CodeCode Available
Enhancing Temporal Modeling of Video LLMs via Time Gating	Oct 8, 2024	MVBenchQuestion Answering	CodeCode Available
Enhancing SPARQL Generation by Triplet-order-sensitive Pre-training	Oct 8, 2024	Graph Question AnsweringLanguage Modeling	CodeCode Available
Enhancing Retrieval in QA Systems with Derived Feature Association	Oct 2, 2024	Question AnsweringRAG	CodeCode Available
CLEVR_HYP: A Challenge Dataset and Baselines for Visual Question Answering with Hypothetical Actions over Images	Apr 13, 2021	Question AnsweringVisual Question Answering	CodeCode Available
Enhancing Paraphrase Type Generation: The Impact of DPO and RLHF Evaluated with Human-Ranked Data	May 28, 2025	Machine TranslationParaphrase Generation	CodeCode Available

Show:10 25 50

← PrevPage 402 of 433Next →

All datasets SQuAD2.0 SQuAD1.1 HotpotQA PIQA BoolQ COPA TriviaQA SQuAD1.1 dev Natural Questions OpenBookQA TruthfulQA MultiRC

Benchmark Results

#	Model	Metric	Claimed	Verified	Status
1	IE-Net (ensemble)	EM	90.94	—	Unverified
2	FPNet (ensemble)	EM	90.87	—	Unverified
3	IE-NetV2 (ensemble)	EM	90.86	—	Unverified
4	SA-Net on Albert (ensemble)	EM	90.72	—	Unverified
5	SA-Net-V2 (ensemble)	EM	90.68	—	Unverified
6	FPNet (ensemble)	EM	90.6	—	Unverified
7	Retro-Reader (ensemble)	EM	90.58	—	Unverified
8	EntitySpanFocusV2 (ensemble)	EM	90.52	—	Unverified
9	TransNets + SFVerifier + SFEnsembler (ensemble)	EM	90.49	—	Unverified
10	EntitySpanFocus+AT (ensemble)	EM	90.45	—	Unverified