Question Answering

Question answering can be segmented into domain-specific tasks like community question answering and knowledge-base question answering. Popular benchmark datasets for evaluation question answering systems include SQuAD, HotPotQA, bAbI, TriviaQA, WikiQA, and many others. Models for question answering are typically evaluated on metrics like EM and F1. Some recent top performing models are T5 and XLNet.

( Image credit: SQuAD )

Papers

Recently Added Most Hyped Most Active Needs Verification Most Verified

Showing 3821–3830 of 10817 papers

Title	Date	Tasks	Status
Training Generative Question-Answering on Synthetic Data Obtained from an Instruct-tuned Model	Oct 12, 2023	Generative Question AnsweringQuestion Answering	—Unverified
From Large Language Models to Knowledge Graphs for Biomarker Discovery in Cancer	Oct 12, 2023	ArticlesDecision Making	—Unverified
Low-Resource Clickbait Spoiling for Indonesian via Question Answering	Oct 12, 2023	Question Answering	—Unverified
QASiNa: Religious Domain Question Answering using Sirah Nabawiyah	Oct 12, 2023	Language ModellingLarge Language Model	CodeCode Available
Ziya-Visual: Bilingual Large Vision-Language Model via Multi-Task Instruction Tuning	Oct 12, 2023	Image CaptioningImage-text Retrieval	—Unverified
Formally Specifying the High-Level Behavior of LLM-Based Agents	Oct 12, 2023	Question Answering	—Unverified
OpenLEAF: Open-Domain Interleaved Image-Text Generation and Evaluation	Oct 11, 2023	Question AnsweringText Generation	—Unverified
Framework for Question-Answering in Sanskrit through Automated Construction of Knowledge Graphs	Oct 11, 2023	Knowledge GraphsQuestion Answering	—Unverified
Do Large Language Models have Shared Weaknesses in Medical Question Answering?	Oct 11, 2023	Medical Question AnsweringQuestion Answering	—Unverified
Improving mitosis detection on histopathology images using large vision-language models	Oct 11, 2023	Domain GeneralizationImage Captioning	—Unverified

Show:10 25 50

← PrevPage 383 of 1082Next →

All datasets SQuAD2.0 SQuAD1.1 HotpotQA PIQA BoolQ COPA TriviaQA SQuAD1.1 dev Natural Questions OpenBookQA TruthfulQA MultiRC

Benchmark Results

#	Model	Metric	Claimed	Verified	Status
1	IE-Net (ensemble)	EM	90.94	—	Unverified
2	FPNet (ensemble)	EM	90.87	—	Unverified
3	IE-NetV2 (ensemble)	EM	90.86	—	Unverified
4	SA-Net on Albert (ensemble)	EM	90.72	—	Unverified
5	SA-Net-V2 (ensemble)	EM	90.68	—	Unverified
6	FPNet (ensemble)	EM	90.6	—	Unverified
7	Retro-Reader (ensemble)	EM	90.58	—	Unverified
8	EntitySpanFocusV2 (ensemble)	EM	90.52	—	Unverified
9	TransNets + SFVerifier + SFEnsembler (ensemble)	EM	90.49	—	Unverified
10	EntitySpanFocus+AT (ensemble)	EM	90.45	—	Unverified