Question Answering

Question answering can be segmented into domain-specific tasks like community question answering and knowledge-base question answering. Popular benchmark datasets for evaluation question answering systems include SQuAD, HotPotQA, bAbI, TriviaQA, WikiQA, and many others. Models for question answering are typically evaluated on metrics like EM and F1. Some recent top performing models are T5 and XLNet.

( Image credit: SQuAD )

Papers

Recently Added Most Hyped Most Active Needs Verification Most Verified

Showing 926–950 of 10817 papers

Title	Date	Tasks	Status	Hype
NovelQA: Benchmarking Question Answering on Documents Exceeding 200K Tokens	Mar 18, 2024	BenchmarkingQuestion Answering	CodeCode Available	1
SQ-LLaVA: Self-Questioning for Large Vision-Language Assistant	Mar 17, 2024	Language ModellingQuestion Answering	CodeCode Available	1
Forward Learning of Graph Neural Networks	Mar 16, 2024	Drug DiscoveryGraph Learning	CodeCode Available	1
ChartInstruct: Instruction Tuning for Chart Comprehension and Reasoning	Mar 14, 2024	Chart UnderstandingInstruction Following	CodeCode Available	1
Can We Talk Models Into Seeing the World Differently?	Mar 14, 2024	Image CaptioningImage Classification	CodeCode Available	1
Transformers Get Stable: An End-to-End Signal Propagation Theory for Language Models	Mar 14, 2024	Decoderimage-classification	CodeCode Available	1
Retrieval augmented text-to-SQL generation for epidemiological question answering using electronic health records	Mar 14, 2024	Question AnsweringRAG	CodeCode Available	1
DAM: Dynamic Adapter Merging for Continual Video QA Learning	Mar 13, 2024	Continual Learningimage-classification	CodeCode Available	1
Beyond Memorization: The Challenge of Random Memory Access in Language Models	Mar 12, 2024	MemorizationOpen-Domain Question Answering	CodeCode Available	1
Complex Reasoning over Logical Queries on Commonsense Knowledge Graphs	Mar 12, 2024	Knowledge GraphsMultiple-choice	CodeCode Available	1
ALaRM: Align Language Models via Hierarchical Rewards Modeling	Mar 11, 2024	Long Form Question AnsweringMachine Translation	CodeCode Available	1
InfiBench: Evaluating the Question-Answering Capabilities of Code Large Language Models	Mar 11, 2024	Code GenerationHumanEval	CodeCode Available	1
Calibrating Large Language Models Using Their Generations Only	Mar 9, 2024	Question AnsweringText Generation	CodeCode Available	1
Can't Remember Details in Long Documents? You Need Some R&R	Mar 8, 2024	Question Answering	CodeCode Available	1
Bias-Augmented Consistency Training Reduces Biased Reasoning in Chain-of-Thought	Mar 8, 2024	Language ModelingLanguage Modelling	CodeCode Available	1
Harnessing Multi-Role Capabilities of Large Language Models for Open-Domain Question Answering	Mar 8, 2024	Answer GenerationOpen-Domain Question Answering	CodeCode Available	1
To Generate or to Retrieve? On the Effectiveness of Artificial Contexts for Medical Open-Domain Question Answering	Mar 4, 2024	MedQAMMLU	CodeCode Available	1
Brilla AI: AI Contestant for the National Science and Maths Quiz	Mar 4, 2024	MathQuestion Answering	CodeCode Available	1
CR-LT-KGQA: A Knowledge Graph Question Answering Dataset Requiring Commonsense Reasoning and Long-Tail Knowledge	Mar 3, 2024	Claim VerificationGraph Question Answering	CodeCode Available	1
Let LLMs Take on the Latest Challenges! A Chinese Dynamic Question Answering Benchmark	Feb 29, 2024	Question Answering	CodeCode Available	1
Benchmarking Large Language Models on Answering and Explaining Challenging Medical Questions	Feb 28, 2024	BenchmarkingMultiple-choice	CodeCode Available	1
Characterizing Truthfulness in Large Language Model Generations with Local Intrinsic Dimension	Feb 28, 2024	Language ModelingLanguage Modelling	CodeCode Available	1
Evaluating Very Long-Term Conversational Memory of LLM Agents	Feb 27, 2024	AvgDialogue Generation	CodeCode Available	1
NextLevelBERT: Masked Language Modeling with Higher-Level Representations for Long Documents	Feb 27, 2024	Document ClassificationLanguage Modeling	CodeCode Available	1
Can LLM Generate Culturally Relevant Commonsense QA Data? Case Study in Indonesian and Sundanese	Feb 27, 2024	General KnowledgeQuestion Answering	CodeCode Available	1

Show:10 25 50

← PrevPage 38 of 433Next →

All datasets SQuAD2.0 SQuAD1.1 HotpotQA PIQA BoolQ COPA TriviaQA SQuAD1.1 dev Natural Questions OpenBookQA TruthfulQA MultiRC

Benchmark Results

#	Model	Metric	Claimed	Verified	Status
1	IE-Net (ensemble)	EM	90.94	—	Unverified
2	FPNet (ensemble)	EM	90.87	—	Unverified
3	IE-NetV2 (ensemble)	EM	90.86	—	Unverified
4	SA-Net on Albert (ensemble)	EM	90.72	—	Unverified
5	SA-Net-V2 (ensemble)	EM	90.68	—	Unverified
6	FPNet (ensemble)	EM	90.6	—	Unverified
7	Retro-Reader (ensemble)	EM	90.58	—	Unverified
8	EntitySpanFocusV2 (ensemble)	EM	90.52	—	Unverified
9	TransNets + SFVerifier + SFEnsembler (ensemble)	EM	90.49	—	Unverified
10	EntitySpanFocus+AT (ensemble)	EM	90.45	—	Unverified