Question Answering

Question answering can be segmented into domain-specific tasks like community question answering and knowledge-base question answering. Popular benchmark datasets for evaluation question answering systems include SQuAD, HotPotQA, bAbI, TriviaQA, WikiQA, and many others. Models for question answering are typically evaluated on metrics like EM and F1. Some recent top performing models are T5 and XLNet.

( Image credit: SQuAD )

Papers

Recently Added Most Hyped Most Active Needs Verification Most Verified

Showing 4126–4150 of 10817 papers

Title	Date	Tasks	Status
Thread: A Logic-Based Data Organization Paradigm for How-To Question Answering with Retrieval Augmented Generation	Jun 19, 2024	Decision MakingQuestion Answering	—Unverified
Comparison of Open-Source and Proprietary LLMs for Machine Reading Comprehension: A Practical Analysis for Industrial Applications	Jun 19, 2024	BenchmarkingMachine Reading Comprehension	—Unverified
QRMeM: Unleash the Length Limitation through Question then Reflection Memory Mechanism	Jun 19, 2024	Multiple-choiceQuestion Answering	—Unverified
Towards Robust Evaluation: A Comprehensive Taxonomy of Datasets and Metrics for Open Domain Question Answering in the Era of Large Language Models	Jun 19, 2024	BenchmarkingOpen-Domain Question Answering	—Unverified
From RAGs to rich parameters: Probing how language models utilize external knowledge over parametric information for factual queries	Jun 18, 2024	Question AnsweringRAG	—Unverified
PSLM: Parallel Generation of Text and Speech with LLMs for Low-Latency Spoken Dialogue Systems	Jun 18, 2024	Language ModelingLanguage Modelling	—Unverified
Diversify, Rationalize, and Combine: Ensembling Multiple QA Strategies for Zero-shot Knowledge-based VQA	Jun 18, 2024	Question AnsweringVisual Question Answering	CodeCode Available
Problem-Solving in Language Model Networks	Jun 18, 2024	Language ModelingLanguage Modelling	CodeCode Available
Towards Understanding Domain Adapted Sentence Embeddings for Document Retrieval	Jun 18, 2024	Domain AdaptationQuestion Answering	—Unverified
GW-MoE: Resolving Uncertainty in MoE Router with Global Workspace Theory	Jun 18, 2024	Code GenerationMathematical Problem-Solving	CodeCode Available
Nash CoT: Multi-Path Inference with Preference Equilibrium	Jun 18, 2024	DiversityQuestion Answering	CodeCode Available
Exploring the Robustness of Language Models for Tabular Question Answering via Attention Analysis	Jun 18, 2024	In-Context LearningQuestion Answering	—Unverified
Intermediate Distillation: Data-Efficient Distillation from Black-Box LLMs for Information Retrieval	Jun 18, 2024	Information RetrievalKnowledge Distillation	—Unverified
LightPAL: Lightweight Passage Retrieval for Open Domain Multi-Document Summarization	Jun 18, 2024	Document SummarizationLanguage Modelling	—Unverified
Extrinsic Evaluation of Cultural Competence in Large Language Models	Jun 17, 2024	Open-Ended Question AnsweringQuestion Answering	CodeCode Available
RepLiQA: A Question-Answering Dataset for Benchmarking LLMs on Unseen Reference Content	Jun 17, 2024	BenchmarkingGeneral Knowledge	CodeCode Available
Program Synthesis Benchmark for Visual Programming in XLogoOnline Environment	Jun 17, 2024	Logical ReasoningMath	—Unverified
InternalInspector I^2: Robust Confidence Estimation in LLMs through Internal States	Jun 17, 2024	BenchmarkingContrastive Learning	—Unverified
SeRTS: Self-Rewarding Tree Search for Biomedical Retrieval-Augmented Generation	Jun 17, 2024	Question AnsweringRAG	—Unverified
Context Graph	Jun 17, 2024	Knowledge GraphsQuestion Answering	—Unverified
Boosting Scientific Concepts Understanding: Can Analogy from Teacher Models Empower Student Models?	Jun 17, 2024	Question AnsweringSelf-Learning	CodeCode Available
Iterative Utility Judgment Framework via LLMs Inspired by Relevance in Philosophy	Jun 17, 2024	Answer GenerationInformation Retrieval	—Unverified
LLARVA: Vision-Action Instruction Tuning Enhances Robot Learning	Jun 17, 2024	Image CaptioningQuestion Answering	—Unverified
Do Not Design, Learn: A Trainable Scoring Function for Uncertainty Estimation in Generative LLMs	Jun 17, 2024	Question Answering	—Unverified
Hallucination Mitigation Prompts Long-term Video Understanding	Jun 17, 2024	Answer GenerationHallucination	CodeCode Available

Show:10 25 50

← PrevPage 166 of 433Next →

All datasets SQuAD2.0 SQuAD1.1 HotpotQA PIQA BoolQ COPA TriviaQA SQuAD1.1 dev Natural Questions OpenBookQA TruthfulQA MultiRC

Benchmark Results

#	Model	Metric	Claimed	Verified	Status
1	IE-Net (ensemble)	EM	90.94	—	Unverified
2	FPNet (ensemble)	EM	90.87	—	Unverified
3	IE-NetV2 (ensemble)	EM	90.86	—	Unverified
4	SA-Net on Albert (ensemble)	EM	90.72	—	Unverified
5	SA-Net-V2 (ensemble)	EM	90.68	—	Unverified
6	FPNet (ensemble)	EM	90.6	—	Unverified
7	Retro-Reader (ensemble)	EM	90.58	—	Unverified
8	EntitySpanFocusV2 (ensemble)	EM	90.52	—	Unverified
9	TransNets + SFVerifier + SFEnsembler (ensemble)	EM	90.49	—	Unverified
10	EntitySpanFocus+AT (ensemble)	EM	90.45	—	Unverified