Question Answering

Question answering can be segmented into domain-specific tasks like community question answering and knowledge-base question answering. Popular benchmark datasets for evaluation question answering systems include SQuAD, HotPotQA, bAbI, TriviaQA, WikiQA, and many others. Models for question answering are typically evaluated on metrics like EM and F1. Some recent top performing models are T5 and XLNet.

( Image credit: SQuAD )

Papers

Recently Added Most Hyped Most Active Needs Verification Most Verified

Showing 6451–6475 of 10817 papers

Title	Date	Tasks	Status
Diagnosing and Addressing Pitfalls in KG-RAG Datasets: Toward More Reliable Benchmarking	May 29, 2025	BenchmarkingGraph Question Answering	—Unverified
BAS: An Answer Selection Method Using BERT Language Model	Nov 4, 2019	Answer SelectionLanguage Modeling	—Unverified
Large-scale CCG Induction from the Groningen Meaning Bank	Jun 1, 2014	Question AnsweringSemantic Parsing	—Unverified
Modelling Long-distance Node Relations for KBQA with Global Dynamic Graph	Dec 1, 2020	Question AnsweringVocal Bursts Type Prediction	—Unverified
DiagGPT: An LLM-based and Multi-agent Dialogue System with Automatic Topic Management for Flexible Task-Oriented Dialogue	Aug 15, 2023	ChatbotDiagnostic	—Unverified
Models in the Loop: Aiding Crowdworkers with Generative Annotation Assistants	Dec 16, 2021	Extractive Question-AnsweringQuestion Answering	—Unverified
Large-Scale Acquisition of Entailment Pattern Pairs by Exploiting Transitivity	Sep 1, 2015	Natural Language InferenceQuestion Answering	—Unverified
Model Tailor: Mitigating Catastrophic Forgetting in Multi-modal Large Language Models	Feb 19, 2024	Image CaptioningQuestion Answering	—Unverified
Modern Question Answering Datasets and Benchmarks: A Survey	Jun 30, 2022	Deep LearningQuestion Answering	—Unverified
Modular Blended Attention Network for Video Question Answering	Nov 2, 2023	Question AnsweringVideo Question Answering	—Unverified
Large-Scale Acquisition of Commonsense Knowledge via a Quiz Game on a Dialogue System	Dec 1, 2016	Common Sense ReasoningQuestion Answering	—Unverified
DH-RAG: A Dynamic Historical Context-Powered Retrieval-Augmented Generation Method for Multi-Turn Dialogue	Feb 19, 2025	Question AnsweringRAG	—Unverified
BARTPhoBEiT: Pre-trained Sequence-to-Sequence and Image Transformers Models for Vietnamese Visual Question Answering	Jul 28, 2023	Question AnsweringVietnamese Visual Question Answering	—Unverified
A Neural Question Answering System for Basic Questions about Subroutines	Jan 11, 2021	DecoderQuestion Answering	—Unverified
Adversarial Multimodal Network for Movie Question Answering	Jun 24, 2019	Question AnsweringVideo Question Answering	—Unverified
LargePiG: Your Large Language Model is Secretly a Pointer Generator	Oct 15, 2024	HallucinationLanguage Modeling	—Unverified
DHP Benchmark: Are LLMs Good NLG Evaluators?	Aug 25, 2024	Benchmarkingnlg evaluation	—Unverified
DGRAG: Distributed Graph-based Retrieval-Augmented Generation in Edge-Cloud Systems	May 26, 2025	Answer GenerationKnowledge Graphs	—Unverified
Barriers in Integrating Medical Visual Question Answering into Radiology Workflows: A Scoping Review and Clinicians' Insights	Jul 9, 2025	DiagnosticMedical Visual Question Answering	—Unverified
A Neural Question Answering Model Based on Semi-Structured Tables	Aug 1, 2018	Knowledge GraphsMultiple-choice	—Unverified
Large language models in healthcare and medical domain: A review	Dec 12, 2023	Document Classificationnamed-entity-recognition	—Unverified
Development of Hybrid Algorithm for Automatic Extraction of Multiword Expressions from Monolingual and Parallel Corpus of English and Punjabi	Dec 1, 2020	Information RetrievalMachine Translation	—Unverified
Large Language Models for Social Networks: Applications, Challenges, and Solutions	Jan 4, 2024	Question Answering	—Unverified
Mondrian: Prompt Abstraction Attack Against Large Language Models for Cheaper API Pricing	Aug 7, 2023	Language ModellingLarge Language Model	—Unverified
Developing Question-Answering Models in Low-Resource Languages: A Case Study on Turkish Medical Texts Using Transformer-Based Approaches	Oct 16, 2024	Language ModelingLanguage Modelling	—Unverified

Show:10 25 50

← PrevPage 259 of 433Next →

All datasets SQuAD2.0 SQuAD1.1 HotpotQA PIQA BoolQ COPA TriviaQA SQuAD1.1 dev Natural Questions OpenBookQA TruthfulQA MultiRC

Benchmark Results

#	Model	Metric	Claimed	Verified	Status
1	IE-Net (ensemble)	EM	90.94	—	Unverified
2	FPNet (ensemble)	EM	90.87	—	Unverified
3	IE-NetV2 (ensemble)	EM	90.86	—	Unverified
4	SA-Net on Albert (ensemble)	EM	90.72	—	Unverified
5	SA-Net-V2 (ensemble)	EM	90.68	—	Unverified
6	FPNet (ensemble)	EM	90.6	—	Unverified
7	Retro-Reader (ensemble)	EM	90.58	—	Unverified
8	EntitySpanFocusV2 (ensemble)	EM	90.52	—	Unverified
9	TransNets + SFVerifier + SFEnsembler (ensemble)	EM	90.49	—	Unverified
10	EntitySpanFocus+AT (ensemble)	EM	90.45	—	Unverified