Question Answering

Question answering can be segmented into domain-specific tasks like community question answering and knowledge-base question answering. Popular benchmark datasets for evaluation question answering systems include SQuAD, HotPotQA, bAbI, TriviaQA, WikiQA, and many others. Models for question answering are typically evaluated on metrics like EM and F1. Some recent top performing models are T5 and XLNet.

( Image credit: SQuAD )

Papers

Recently Added Most Hyped Most Active Needs Verification Most Verified

Showing 5001–5025 of 10817 papers

Title	Date	Tasks	Status
Knowledge Graph Question Answering via SPARQL Silhouette Generation	Sep 6, 2021	Graph Question AnsweringKnowledge Graphs	—Unverified
A Diachronic Corpus for Romanian (RoDia)	Sep 1, 2017	Information RetrievalOptical Character Recognition (OCR)	—Unverified
Invar-RAG: Invariant LLM-aligned Retrieval for Better Generation	Nov 11, 2024	HallucinationInformation Retrieval	—Unverified
Inverse Visual Question Answering: A New Benchmark and VQA Diagnosis Tool	Mar 16, 2018	Question AnsweringReinforcement Learning	—Unverified
Knowledge Graph Reasoning Based on Attention GCN	Dec 2, 2023	Data IntegrationLink Prediction	—Unverified
Investigating and Addressing Hallucinations of LLMs in Tasks Involving Negation	Jun 8, 2024	Abstractive Text SummarizationDialogue Generation	—Unverified
Investigating Answerability of LLMs for Long-Form Question Answering	Sep 15, 2023	FormLong Form Question Answering	—Unverified
Investigating Biases in Textual Entailment Datasets	Jun 23, 2019	BIG-bench Machine LearningNatural Language Inference	—Unverified
Investigating Data Contamination in Modern Benchmarks for Large Language Models	Nov 16, 2023	Common Sense ReasoningMMLU	—Unverified
Investigating Energy Efficiency and Performance Trade-offs in LLM Inference Across Tasks and DVFS Settings	Jan 14, 2025	BenchmarkingQuestion Answering	—Unverified
Knowledge Graphs and Knowledge Networks: The Story in Brief	Mar 7, 2020	Knowledge GraphsLink Prediction	—Unverified
Investigating Information Inconsistency in Multilingual Open-Domain Question Answering	May 25, 2022	Open-Domain Question AnsweringQuestion Answering	—Unverified
Improving mitosis detection on histopathology images using large vision-language models	Oct 11, 2023	Domain GeneralizationImage Captioning	—Unverified
Investigating Mysteries of CoT-Augmented Distillation	Jun 20, 2024	Question Answering	—Unverified
Attention-guided Generative Models for Extractive Question Answering	Oct 12, 2021	DecoderExtractive Question-Answering	—Unverified
Attention Guided Semantic Relationship Parsing for Visual Question Answering	Oct 5, 2020	ObjectQuestion Answering	—Unverified
LEANN: A Low-Storage Vector Index	Jun 9, 2025	Question AnsweringRAG	—Unverified
Investigating the Generative Approach for Question Answering in E-Commerce	May 1, 2022	Answer GenerationQuestion Answering	—Unverified
CUB: Benchmarking Context Utilisation Techniques for Language Models	May 22, 2025	BenchmarkingFact Checking	—Unverified
Investigating the use of Paraphrase Generation for Question Reformulation in the FRANK QA system	Jun 6, 2022	Paraphrase GenerationQuestion Answering	—Unverified
Knowledge Graph Question Answering for Materials Science (KGQA4MAT): Developing Natural Language Interface for Metal-Organic Frameworks Knowledge Graph (MOF-KG) Using LLM	Sep 20, 2023	Graph Question AnsweringKnowledge Graphs	—Unverified
Invited Talk: IBM Cognitive Computing - An NLP Renaissance!	Oct 1, 2014	Machine TranslationQuestion Answering	—Unverified
Improving Long Text Understanding with Knowledge Distilled from Summarization Model	May 8, 2024	Abstractive Text SummarizationDocument Classification	—Unverified
CoT Rerailer: Enhancing the Reliability of Large Language Models in Complex Reasoning Tasks through Error Detection and Correction	Aug 25, 2024	Decision MakingQuestion Answering	—Unverified
Improving LLM First-Token Predictions in Multiple-Choice Question Answering via Prefilling Attack	May 21, 2025	Multiple-choiceMultiple Choice Question Answering (MCQA)	—Unverified

Show:10 25 50

← PrevPage 201 of 433Next →

All datasets SQuAD2.0 SQuAD1.1 HotpotQA PIQA BoolQ COPA TriviaQA SQuAD1.1 dev Natural Questions OpenBookQA TruthfulQA MultiRC

Benchmark Results

#	Model	Metric	Claimed	Verified	Status
1	IE-Net (ensemble)	EM	90.94	—	Unverified
2	FPNet (ensemble)	EM	90.87	—	Unverified
3	IE-NetV2 (ensemble)	EM	90.86	—	Unverified
4	SA-Net on Albert (ensemble)	EM	90.72	—	Unverified
5	SA-Net-V2 (ensemble)	EM	90.68	—	Unverified
6	FPNet (ensemble)	EM	90.6	—	Unverified
7	Retro-Reader (ensemble)	EM	90.58	—	Unverified
8	EntitySpanFocusV2 (ensemble)	EM	90.52	—	Unverified
9	TransNets + SFVerifier + SFEnsembler (ensemble)	EM	90.49	—	Unverified
10	EntitySpanFocus+AT (ensemble)	EM	90.45	—	Unverified