Question Answering

Question answering can be segmented into domain-specific tasks like community question answering and knowledge-base question answering. Popular benchmark datasets for evaluation question answering systems include SQuAD, HotPotQA, bAbI, TriviaQA, WikiQA, and many others. Models for question answering are typically evaluated on metrics like EM and F1. Some recent top performing models are T5 and XLNet.

( Image credit: SQuAD )

Papers

Recently Added Most Hyped Most Active Needs Verification Most Verified

Showing 171–180 of 10817 papers

Title	Date	Tasks	Status	Hype
SALMONN: Towards Generic Hearing Abilities for Large Language Models	Oct 20, 2023	Audio captioningAutomatic Speech Recognition	CodeCode Available	3
Evaluating Hallucinations in Chinese Large Language Models	Oct 5, 2023	HallucinationQuestion Answering	CodeCode Available	3
Generative Data Augmentation using LLMs improves Distributional Robustness in Question Answering	Sep 3, 2023	Data AugmentationDomain Adaptation	CodeCode Available	3
Towards CausalGPT: A Multi-Agent Approach for Faithful Knowledge Reasoning via Promoting Causal Consistency in LLMs	Aug 23, 2023	counterfactualQuestion Answering	CodeCode Available	3
3D-LLM: Injecting the 3D World into Large Language Models	Jul 24, 2023	3D Object Captioning3D Question Answering (3D-QA)	CodeCode Available	3
Emu: Generative Pretraining in Multimodality	Jul 11, 2023	Image CaptioningImage Generation	CodeCode Available	3
SVIT: Scaling up Visual Instruction Tuning	Jul 9, 2023	DiversityImage Captioning	CodeCode Available	3
WebGLM: Towards An Efficient Web-Enhanced Question Answering System with Human Preferences	Jun 13, 2023	Language ModelingLanguage Modelling	CodeCode Available	3
Video-ChatGPT: Towards Detailed Video Understanding via Large Vision and Language Models	Jun 8, 2023	Question AnsweringVCGBench-Diverse	CodeCode Available	3
Self-QA: Unsupervised Knowledge Guided Language Model Alignment	May 19, 2023	DiversityLanguage Modeling	CodeCode Available	3

Show:10 25 50

← PrevPage 18 of 1082Next →

All datasets SQuAD2.0 SQuAD1.1 HotpotQA PIQA BoolQ COPA TriviaQA SQuAD1.1 dev Natural Questions OpenBookQA TruthfulQA MultiRC

Benchmark Results

#	Model	Metric	Claimed	Verified	Status
1	IE-Net (ensemble)	EM	90.94	—	Unverified
2	FPNet (ensemble)	EM	90.87	—	Unverified
3	IE-NetV2 (ensemble)	EM	90.86	—	Unverified
4	SA-Net on Albert (ensemble)	EM	90.72	—	Unverified
5	SA-Net-V2 (ensemble)	EM	90.68	—	Unverified
6	FPNet (ensemble)	EM	90.6	—	Unverified
7	Retro-Reader (ensemble)	EM	90.58	—	Unverified
8	EntitySpanFocusV2 (ensemble)	EM	90.52	—	Unverified
9	TransNets + SFVerifier + SFEnsembler (ensemble)	EM	90.49	—	Unverified
10	EntitySpanFocus+AT (ensemble)	EM	90.45	—	Unverified