Question Answering

Question answering can be segmented into domain-specific tasks like community question answering and knowledge-base question answering. Popular benchmark datasets for evaluation question answering systems include SQuAD, HotPotQA, bAbI, TriviaQA, WikiQA, and many others. Models for question answering are typically evaluated on metrics like EM and F1. Some recent top performing models are T5 and XLNet.

( Image credit: SQuAD )

Papers

Recently Added Most Hyped Most Active Needs Verification Most Verified

Showing 2021–2030 of 10817 papers

Title	Date	Tasks	Status	Hype
Large Language Model Driven Recommendation	Aug 20, 2024	Language ModelingLanguage Modelling	—Unverified	0
GS-KGC: A Generative Subgraph-based Framework for Knowledge Graph Completion with Large Language Models	Aug 20, 2024	Knowledge Graph CompletionKnowledge Graphs	—Unverified	0
QUITO-X: A New Perspective on Context Compression from the Information Bottleneck Theory	Aug 20, 2024	In-Context LearningQuestion Answering	—Unverified	0
Putting People in LLMs' Shoes: Generating Better Answers via Question Rewriter	Aug 20, 2024	Long Form Question AnsweringQuestion Answering	CodeCode Available	0
Multilingual Non-Factoid Question Answering with Answer Paragraph Selection	Aug 20, 2024	ArticlesQuestion Answering	CodeCode Available	0
V-RoAst: Visual Road Assessment. Can VLM be a Road Safety Assessor Using the iRAP Standard?	Aug 20, 2024	Few-Shot LearningIn-Context Learning	CodeCode Available	1
Multilingual Needle in a Haystack: Investigating Long-Context Behavior of Multilingual Large Language Models	Aug 19, 2024	8kInformation Retrieval	CodeCode Available	0
Ranking Generated Answers: On the Agreement of Retrieval Models with Humans on Consumer Health Questions	Aug 19, 2024	Open-Ended Question AnsweringQuestion Answering	CodeCode Available	0
PA-LLaVA: A Large Language-Vision Assistant for Human Pathology Image Understanding	Aug 18, 2024	Language ModellingQuestion Answering	CodeCode Available	2
How Susceptible are LLMs to Influence in Prompts?	Aug 17, 2024	Multiple-choiceQuestion Answering	—Unverified	0

Show:10 25 50

← PrevPage 203 of 1082Next →

All datasets SQuAD2.0 SQuAD1.1 HotpotQA PIQA BoolQ COPA TriviaQA SQuAD1.1 dev Natural Questions OpenBookQA TruthfulQA MultiRC

Benchmark Results

#	Model	Metric	Claimed	Verified	Status
1	IE-Net (ensemble)	EM	90.94	—	Unverified
2	FPNet (ensemble)	EM	90.87	—	Unverified
3	IE-NetV2 (ensemble)	EM	90.86	—	Unverified
4	SA-Net on Albert (ensemble)	EM	90.72	—	Unverified
5	SA-Net-V2 (ensemble)	EM	90.68	—	Unverified
6	FPNet (ensemble)	EM	90.6	—	Unverified
7	Retro-Reader (ensemble)	EM	90.58	—	Unverified
8	EntitySpanFocusV2 (ensemble)	EM	90.52	—	Unverified
9	TransNets + SFVerifier + SFEnsembler (ensemble)	EM	90.49	—	Unverified
10	EntitySpanFocus+AT (ensemble)	EM	90.45	—	Unverified