Question Answering

Question answering can be segmented into domain-specific tasks like community question answering and knowledge-base question answering. Popular benchmark datasets for evaluation question answering systems include SQuAD, HotPotQA, bAbI, TriviaQA, WikiQA, and many others. Models for question answering are typically evaluated on metrics like EM and F1. Some recent top performing models are T5 and XLNet.

( Image credit: SQuAD )

Papers

Recently Added Most Hyped Most Active Needs Verification Most Verified

Showing 2031–2040 of 10817 papers

Title	Date	Tasks	Status	Hype
FabricQA-Extractor: A Question Answering System to Extract Information from Documents using Natural Language Questions	Aug 17, 2024	ManagementQuestion Answering	—Unverified	0
TableBench: A Comprehensive and Complex Benchmark for Table Question Answering	Aug 17, 2024	Question Answering	—Unverified	0
FEDMEKI: A Benchmark for Scaling Medical Foundation Models via Federated Knowledge Injection	Aug 17, 2024	Federated LearningMedical Visual Question Answering	CodeCode Available	0
Reference-Guided Verdict: LLMs-as-Judges in Automatic Evaluation of Free-Form Text	Aug 17, 2024	DiversityForm	—Unverified	0
Risks and NLP Design: A Case Study on Procedural Document QA	Aug 16, 2024	Language ModelingLanguage Modelling	—Unverified	0
RealMedQA: A pilot biomedical question answering dataset containing realistic clinical questions	Aug 16, 2024	Question Answering	CodeCode Available	0
MuRAR: A Simple and Effective Multimodal Retrieval and Answer Refinement Framework for Multimodal Question Answering	Aug 16, 2024	Question AnsweringRAG	—Unverified	0
Beyond the Hype: A dispassionate look at vision-language models in medical scenario	Aug 16, 2024	Question AnsweringSpatial Reasoning	—Unverified	0
Med-PMC: Medical Personalized Multi-modal Consultation with a Proactive Ask-First-Observe-Next Paradigm	Aug 16, 2024	Decision MakingMedical Visual Question Answering	CodeCode Available	0
Visual Agents as Fast and Slow Thinkers	Aug 16, 2024	Question AnsweringReasoning Segmentation	CodeCode Available	1

Show:10 25 50

← PrevPage 204 of 1082Next →

All datasets SQuAD2.0 SQuAD1.1 HotpotQA PIQA BoolQ COPA TriviaQA SQuAD1.1 dev Natural Questions OpenBookQA TruthfulQA MultiRC

Benchmark Results

#	Model	Metric	Claimed	Verified	Status
1	IE-Net (ensemble)	EM	90.94	—	Unverified
2	FPNet (ensemble)	EM	90.87	—	Unverified
3	IE-NetV2 (ensemble)	EM	90.86	—	Unverified
4	SA-Net on Albert (ensemble)	EM	90.72	—	Unverified
5	SA-Net-V2 (ensemble)	EM	90.68	—	Unverified
6	FPNet (ensemble)	EM	90.6	—	Unverified
7	Retro-Reader (ensemble)	EM	90.58	—	Unverified
8	EntitySpanFocusV2 (ensemble)	EM	90.52	—	Unverified
9	TransNets + SFVerifier + SFEnsembler (ensemble)	EM	90.49	—	Unverified
10	EntitySpanFocus+AT (ensemble)	EM	90.45	—	Unverified