Question Answering

Question answering can be segmented into domain-specific tasks like community question answering and knowledge-base question answering. Popular benchmark datasets for evaluation question answering systems include SQuAD, HotPotQA, bAbI, TriviaQA, WikiQA, and many others. Models for question answering are typically evaluated on metrics like EM and F1. Some recent top performing models are T5 and XLNet.

( Image credit: SQuAD )

Papers

Recently Added Most Hyped Most Active Needs Verification Most Verified

Showing 4451–4475 of 10817 papers

Title	Date	Tasks	Status
DelucionQA: Detecting Hallucinations in Domain-specific Question Answering	Dec 8, 2023	HallucinationInformation Retrieval	—Unverified
Delexicalized transfer parsing for low-resource languages using transformed and combined treebanks	Aug 1, 2017	Cross-Lingual TransferDependency Parsing	—Unverified
An End-to-End Deep Framework for Answer Triggering with a Novel Group-Level Objective	Sep 1, 2017	Multiple Instance LearningQuestion Answering	—Unverified
Improving Users' Mental Model with Attention-directed Counterfactual Edits	Oct 13, 2021	counterfactualQuestion Answering	—Unverified
Improving Visual Question Answering Models through Robustness Analysis and In-Context Learning with a Chain of Basic Questions	Apr 6, 2023	In-Context LearningQuestion Answering	—Unverified
INAOE\_UPV-CORE: Extracting Word Associations from Document Corpora to estimate Semantic Textual Similarity	Jun 1, 2013	Document SummarizationInformation Retrieval	—Unverified
A Visual Question Answering Method for SAR Ship: Breaking the Requirement for Multimodal Dataset Construction and Model Fine-Tuning	Nov 3, 2024	object-detectionObject Detection	—Unverified
A Visually-Aware Conversational Robot Receptionist	Sep 1, 2022	Question Answering	—Unverified
An End-to-End Chinese Discourse Parser with Adaptation to Explicit and Non-explicit Relation Recognition	Aug 1, 2016	General ClassificationMachine Translation	—Unverified
Improving Time Sensitivity for Question Answering over Temporal Knowledge Graphs	Mar 1, 2022	Knowledge GraphsQuestion Answering	—Unverified
Deep Video Discovery: Agentic Search with Tool Use for Long-form Video Understanding	May 23, 2025	FormQuestion Answering	—Unverified
A Vision Centric Remote Sensing Benchmark	Mar 20, 2025	Question AnsweringRepresentation Learning	—Unverified
DeepStory: Video Story QA by Deep Embedded Memory Networks	Jul 4, 2017	AI AgentQuestion Answering	—Unverified
AVIS: Autonomous Visual Information Seeking with Large Language Model Agent	Jun 13, 2023	Decision MakingLanguage Modeling	—Unverified
An End-to-end Approach to Learning Semantic Frames with Feedforward Neural Network	Jun 1, 2016	ClusteringDependency Parsing	—Unverified
Improving Twitter Named Entity Recognition using Word Representations	Jul 1, 2015	named-entity-recognitionNamed Entity Recognition	—Unverified
A View From the Crowd: Evaluation Challenges for Time-Offset Interaction Applications	Apr 1, 2021	Question Answering	—Unverified
A Vietnamese Text-Based Conversational Agent	Nov 26, 2019	Question Answering	—Unverified
An Encoder Attribution Analysis for Dense Passage Retriever in Open-Domain Question Answering	Jul 1, 2022	Open-Domain Question AnsweringQuestion Answering	—Unverified
Advancing Surgical VQA with Scene Graph Knowledge	Dec 15, 2023	Question AnsweringVisual Question Answering	—Unverified
A Vietnamese Question Answering System	Nov 26, 2019	Question Answering	—Unverified
DeepPurple: Lexical, String and Affective Feature Fusion for Sentence-Level Semantic Similarity Estimation	Jun 1, 2013	Domain AdaptationMachine Translation	—Unverified
A Vietnamese Dataset for Evaluating Machine Reading Comprehension	Dec 1, 2020	ArticlesMachine Reading Comprehension	—Unverified
DeepPurple: Estimating Sentence Semantic Similarity using N-gram Regression Models and Web Snippets	Jul 1, 2012	Machine TranslationNatural Language Inference	—Unverified
DeepPavlov: Open-Source Library for Dialogue Systems	Jul 1, 2018	General Classificationintent-classification	—Unverified

Show:10 25 50

← PrevPage 179 of 433Next →

All datasets SQuAD2.0 SQuAD1.1 HotpotQA PIQA BoolQ COPA TriviaQA SQuAD1.1 dev Natural Questions OpenBookQA TruthfulQA MultiRC

Benchmark Results

#	Model	Metric	Claimed	Verified	Status
1	IE-Net (ensemble)	EM	90.94	—	Unverified
2	FPNet (ensemble)	EM	90.87	—	Unverified
3	IE-NetV2 (ensemble)	EM	90.86	—	Unverified
4	SA-Net on Albert (ensemble)	EM	90.72	—	Unverified
5	SA-Net-V2 (ensemble)	EM	90.68	—	Unverified
6	FPNet (ensemble)	EM	90.6	—	Unverified
7	Retro-Reader (ensemble)	EM	90.58	—	Unverified
8	EntitySpanFocusV2 (ensemble)	EM	90.52	—	Unverified
9	TransNets + SFVerifier + SFEnsembler (ensemble)	EM	90.49	—	Unverified
10	EntitySpanFocus+AT (ensemble)	EM	90.45	—	Unverified