Question Answering

Question answering can be segmented into domain-specific tasks like community question answering and knowledge-base question answering. Popular benchmark datasets for evaluation question answering systems include SQuAD, HotPotQA, bAbI, TriviaQA, WikiQA, and many others. Models for question answering are typically evaluated on metrics like EM and F1. Some recent top performing models are T5 and XLNet.

( Image credit: SQuAD )

Papers

Recently Added Most Hyped Most Active Needs Verification Most Verified

Showing 4401–4425 of 10817 papers

Title	Date	Tasks	Status	Hype
NuScenes-QA: A Multi-modal Visual Question Answering Benchmark for Autonomous Driving Scenario	May 24, 2023	Autonomous DrivingQuestion Answering	CodeCode Available	2
InteractiveIE: Towards Assessing the Strength of Human-AI Collaboration in Improving the Performance of Information Extraction	May 24, 2023	Question AnsweringQuestion Generation	—Unverified	0
Few-shot Unified Question Answering: Tuning Models or Prompts?	May 23, 2023	Question AnsweringTransfer Learning	—Unverified	0
Exploring Contrast Consistency of Open-Domain Question Answering Systems on Minimally Edited Questions	May 23, 2023	Data AugmentationLanguage Modeling	CodeCode Available	0
RetICL: Sequential Retrieval of In-Context Examples with Reinforcement Learning	May 23, 2023	In-Context LearningLanguage Modelling	CodeCode Available	1
Knowledge Graphs Querying	May 23, 2023	Fact CheckingInformation Retrieval	—Unverified	0
BAND: Biomedical Alert News Dataset	May 23, 2023	ArticlesEpidemiology	CodeCode Available	0
Sources of Hallucination by Large Language Models on Inference Tasks	May 23, 2023	HallucinationMemorization	CodeCode Available	1
Image Manipulation via Multi-Hop Instructions -- A New Dataset and Weakly-Supervised Neuro-Symbolic Approach	May 23, 2023	Image ManipulationQuestion Answering	—Unverified	0
Pre-training Language Models for Comparative Reasoning	May 23, 2023	Question AnsweringQuestion Generation	—Unverified	0
Asking Clarification Questions to Handle Ambiguity in Open-Domain QA	May 23, 2023	Open-Domain Question AnsweringQuestion Answering	CodeCode Available	1
RET-LLM: Towards a General Read-Write Memory for Large Language Models	May 23, 2023	Question Answering	CodeCode Available	6
Knowledge of Knowledge: Exploring Known-Unknowns Uncertainty with Large Language Models	May 23, 2023	Known UnknownsOpen-Ended Question Answering	CodeCode Available	0
Evaluating and Modeling Attribution for Cross-Lingual Question Answering	May 23, 2023	AttributeCross-Lingual Question Answering	—Unverified	0
Few-Shot Data Synthesis for Open Domain Multi-Hop Question Answering	May 23, 2023	Fact VerificationFew-Shot Learning	—Unverified	0
Make a Choice! Knowledge Base Question Answering with In-Context Learning	May 23, 2023	In-Context LearningKnowledge Base Question Answering	—Unverified	0
IfQA: A Dataset for Open-domain Question Answering under Counterfactual Presuppositions	May 23, 2023	counterfactualCounterfactual Reasoning	—Unverified	0
Question Answering as Programming for Solving Time-Sensitive Questions	May 23, 2023	Natural Language UnderstandingQuestion Answering	CodeCode Available	1
i-Code Studio: A Configurable and Composable Framework for Integrative AI	May 23, 2023	Question AnsweringRetrieval	—Unverified	0
MemeCap: A Dataset for Captioning and Interpreting Memes	May 23, 2023	Image CaptioningMeme Captioning	CodeCode Available	1
Continual Dialogue State Tracking via Example-Guided Question Answering	May 23, 2023	Continual LearningDialogue State Tracking	CodeCode Available	0
On the Risk of Misinformation Pollution with Large Language Models	May 23, 2023	MisinformationOpen-Domain Question Answering	CodeCode Available	1
Towards Graph-hop Retrieval and Reasoning in Complex Question Answering over Textual Database	May 23, 2023	DiversityQuestion Answering	—Unverified	0
Fine-tuned LLMs Know More, Hallucinate Less with Few-Shot Sequence-to-Sequence Semantic Parsing over Wikidata	May 23, 2023	Knowledge Base Question AnsweringKnowledge Graphs	CodeCode Available	1
HOP, UNION, GENERATE: Explainable Multi-hop Reasoning without Rationale Supervision	May 23, 2023	Multi-hop Question AnsweringQuestion Answering	—Unverified	0

Show:10 25 50

← PrevPage 177 of 433Next →

All datasets SQuAD2.0 SQuAD1.1 HotpotQA PIQA BoolQ COPA TriviaQA SQuAD1.1 dev Natural Questions OpenBookQA TruthfulQA MultiRC

Benchmark Results

#	Model	Metric	Claimed	Verified	Status
1	IE-Net (ensemble)	EM	90.94	—	Unverified
2	FPNet (ensemble)	EM	90.87	—	Unverified
3	IE-NetV2 (ensemble)	EM	90.86	—	Unverified
4	SA-Net on Albert (ensemble)	EM	90.72	—	Unverified
5	SA-Net-V2 (ensemble)	EM	90.68	—	Unverified
6	FPNet (ensemble)	EM	90.6	—	Unverified
7	Retro-Reader (ensemble)	EM	90.58	—	Unverified
8	EntitySpanFocusV2 (ensemble)	EM	90.52	—	Unverified
9	TransNets + SFVerifier + SFEnsembler (ensemble)	EM	90.49	—	Unverified
10	EntitySpanFocus+AT (ensemble)	EM	90.45	—	Unverified