Question Answering

Question answering can be segmented into domain-specific tasks like community question answering and knowledge-base question answering. Popular benchmark datasets for evaluation question answering systems include SQuAD, HotPotQA, bAbI, TriviaQA, WikiQA, and many others. Models for question answering are typically evaluated on metrics like EM and F1. Some recent top performing models are T5 and XLNet.

( Image credit: SQuAD )

Papers

Recently Added Most Hyped Most Active Needs Verification Most Verified

Showing 4626–4650 of 10817 papers

Title	Date	Tasks	Status
Are Multilingual Models the Best Choice for Moderately Under-resourced Languages? A Comprehensive Assessment for Catalan	Jul 16, 2021	Language ModelingLanguage Modelling	—Unverified
Al-Bayan: A Knowledge-based System for Arabic Answer Selection	Jun 1, 2015	Answer SelectionCommunity Question Answering	—Unverified
ALAS: Measuring Latent Speech-Text Alignment For Spoken Language Understanding In Multimodal LLMs	May 26, 2025	cross-modal alignmentEmotion Recognition	—Unverified
Adaptations of ROUGE and BLEU to Better Evaluate Machine Reading Comprehension Task	Jun 10, 2018	Machine Reading ComprehensionQuestion Answering	—Unverified
Beyond Prompting: An Efficient Embedding Framework for Open-Domain Question Answering	Mar 3, 2025	Contrastive LearningOpen-Domain Question Answering	—Unverified
How Additional Knowledge can Improve Natural Language Commonsense Question Answering?	Sep 19, 2019	ArticlesLanguage Modeling	—Unverified
Character-Aware Neural Networks for Arabic Named Entity Recognition for Social Media	Dec 1, 2016	Feature EngineeringInformation Retrieval	—Unverified
Exploring the Viability of Synthetic Query Generation for Relevance Prediction	May 19, 2023	Information RetrievalQuestion Answering	—Unverified
Changing Answer Order Can Decrease MMLU Accuracy	Jun 27, 2024	MMLUMultiple-choice	—Unverified
Exploring The Spatial Reasoning Ability of Neural Models in Human IQ Tests	Apr 11, 2020	Question AnsweringSpatial Reasoning	—Unverified
Exploring the Role of Knowledge Graph-Based RAG in Japanese Medical Question Answering with Small-Scale LLMs	Apr 15, 2025	Medical Question AnsweringQuestion Answering	—Unverified
Are Multilingual BERT models robust? A Case Study on Adversarial Attacks for Multilingual Question Answering	Apr 15, 2021	Question Answering	—Unverified
Do Large Language Models have Shared Weaknesses in Medical Question Answering?	Oct 11, 2023	Medical Question AnsweringQuestion Answering	—Unverified
Exploring The Landscape of Distributional Robustness for Question Answering Models	Oct 22, 2022	In-Context LearningQuestion Answering	—Unverified
Modeling Uncertainty and Using Post-fusion as Fallback Improves Retrieval Augmented Generation with LLMs	Aug 24, 2023	Answer GenerationOpen-Domain Question Answering	—Unverified
Challenging Reading Comprehension on Daily Conversation: Passage Completion on Multiparty Dialog	Jun 1, 2018	Question AnsweringReading Comprehension	—Unverified
Are LLMs Really Not Knowledgable? Mining the Submerged Knowledge in LLMs' Memory	Dec 30, 2024	Question Answering	—Unverified
Exploring the In-context Learning Ability of Large Language Model for Biomedical Concept Linking	Jul 3, 2023	In-Context LearningInformation Retrieval	—Unverified
Exploring the Impact of Table-to-Text Methods on Augmenting LLM-based Question Answering with Domain Hybrid Data	Feb 20, 2024	Question AnsweringRAG	—Unverified
Challenges of GPT-3-based Conversational Agents for Healthcare	Aug 28, 2023	Medical Question AnsweringMedQA	—Unverified
Exploring the Impact of Occupational Personas on Domain-Specific QA	May 30, 2025	Question Answering	—Unverified
Exploring the Ideal Depth of Neural Network when Predicting Question Deletion on Community Question Answering	Dec 8, 2019	Community Question AnsweringInformation Retrieval	—Unverified
Challenges in Information-Seeking QA: Unanswerable Questions and Paragraph Retrieval	Oct 22, 2020	answerability predictionLanguage Modelling	—Unverified
A Relational Tsetlin Machine with Applications to Natural Language Understanding	Feb 22, 2021	Natural Language UnderstandingQuestion Answering	—Unverified
A Large-Scale, Open-Domain, Mixed-Interface Dialogue-Based ITS for STEM	May 6, 2020	BIG-bench Machine LearningQuestion Answering	—Unverified

Show:10 25 50

← PrevPage 186 of 433Next →

All datasets SQuAD2.0 SQuAD1.1 HotpotQA PIQA BoolQ COPA TriviaQA SQuAD1.1 dev Natural Questions OpenBookQA TruthfulQA MultiRC

Benchmark Results

#	Model	Metric	Claimed	Verified	Status
1	IE-Net (ensemble)	EM	90.94	—	Unverified
2	FPNet (ensemble)	EM	90.87	—	Unverified
3	IE-NetV2 (ensemble)	EM	90.86	—	Unverified
4	SA-Net on Albert (ensemble)	EM	90.72	—	Unverified
5	SA-Net-V2 (ensemble)	EM	90.68	—	Unverified
6	FPNet (ensemble)	EM	90.6	—	Unverified
7	Retro-Reader (ensemble)	EM	90.58	—	Unverified
8	EntitySpanFocusV2 (ensemble)	EM	90.52	—	Unverified
9	TransNets + SFVerifier + SFEnsembler (ensemble)	EM	90.49	—	Unverified
10	EntitySpanFocus+AT (ensemble)	EM	90.45	—	Unverified