Question Answering

Question answering can be segmented into domain-specific tasks like community question answering and knowledge-base question answering. Popular benchmark datasets for evaluation question answering systems include SQuAD, HotPotQA, bAbI, TriviaQA, WikiQA, and many others. Models for question answering are typically evaluated on metrics like EM and F1. Some recent top performing models are T5 and XLNet.

( Image credit: SQuAD )

Papers

Recently Added Most Hyped Most Active Needs Verification Most Verified

Showing 3411–3420 of 10817 papers

Title	Date	Tasks	Status	Hype
Detection-based Intermediate Supervision for Visual Question Answering	Dec 26, 2023	cross-modal alignmentLogical Reasoning	—Unverified	0
SecQA: A Concise Question-Answering Dataset for Evaluating Large Language Models in Computer Security	Dec 26, 2023	Computer SecurityMultiple-choice	CodeCode Available	0
Supervised Knowledge Makes Large Language Models Better In-context Learners	Dec 26, 2023	In-Context LearningNatural Language Understanding	CodeCode Available	0
KnowledgeNavigator: Leveraging Large Language Models for Enhanced Reasoning over Knowledge Graph	Dec 26, 2023	HallucinationLanguage Modeling	—Unverified	0
PersianLLaMA: Towards Building First Persian Large Language Model	Dec 25, 2023	Language ModelingLanguage Modelling	—Unverified	0
On the Promises and Challenges of Multimodal Foundation Models for Geographical, Environmental, Agricultural, and Urban Planning Applications	Dec 23, 2023	geo-localizationimage-classification	—Unverified	0
Reverse Multi-Choice Dialogue Commonsense Inference with Graph-of-Thought	Dec 23, 2023	Question Answering	CodeCode Available	1
Paralinguistics-Enhanced Large Language Modeling of Spoken Dialogue	Dec 23, 2023	AttributeLanguage Modeling	—Unverified	0
PokeMQA: Programmable knowledge editing for Multi-hop Question Answering	Dec 23, 2023	Answer Generationknowledge editing	CodeCode Available	1
Towards a Unified Multimodal Reasoning Framework	Dec 22, 2023	Multimodal ReasoningMultiple-choice	CodeCode Available	0

Show:10 25 50

← PrevPage 342 of 1082Next →

All datasets SQuAD2.0 SQuAD1.1 HotpotQA PIQA BoolQ COPA TriviaQA SQuAD1.1 dev Natural Questions OpenBookQA TruthfulQA MultiRC

Benchmark Results

#	Model	Metric	Claimed	Verified	Status
1	IE-Net (ensemble)	EM	90.94	—	Unverified
2	FPNet (ensemble)	EM	90.87	—	Unverified
3	IE-NetV2 (ensemble)	EM	90.86	—	Unverified
4	SA-Net on Albert (ensemble)	EM	90.72	—	Unverified
5	SA-Net-V2 (ensemble)	EM	90.68	—	Unverified
6	FPNet (ensemble)	EM	90.6	—	Unverified
7	Retro-Reader (ensemble)	EM	90.58	—	Unverified
8	EntitySpanFocusV2 (ensemble)	EM	90.52	—	Unverified
9	TransNets + SFVerifier + SFEnsembler (ensemble)	EM	90.49	—	Unverified
10	EntitySpanFocus+AT (ensemble)	EM	90.45	—	Unverified