Question Answering

Question answering can be segmented into domain-specific tasks like community question answering and knowledge-base question answering. Popular benchmark datasets for evaluation question answering systems include SQuAD, HotPotQA, bAbI, TriviaQA, WikiQA, and many others. Models for question answering are typically evaluated on metrics like EM and F1. Some recent top performing models are T5 and XLNet.

( Image credit: SQuAD )

Papers

Recently Added Most Hyped Most Active Needs Verification Most Verified

Showing 2351–2375 of 10817 papers

Title	Date	Tasks	Status	Hype
Model Internals-based Answer Attribution for Trustworthy Retrieval-Augmented Generation	Jun 19, 2024	Question AnsweringRAG	CodeCode Available	1
Comparison of Open-Source and Proprietary LLMs for Machine Reading Comprehension: A Practical Analysis for Industrial Applications	Jun 19, 2024	BenchmarkingMachine Reading Comprehension	—Unverified	0
DialSim: A Real-Time Simulator for Evaluating Long-Term Multi-Party Dialogue Understanding of Conversational Agents	Jun 19, 2024	Dialogue UnderstandingQuestion Answering	CodeCode Available	1
Factual Confidence of LLMs: on Reliability and Robustness of Current Estimators	Jun 19, 2024	Fact VerificationQuestion Answering	CodeCode Available	1
Enhancing Cross-Prompt Transferability in Vision-Language Models through Contextual Injection of Target Tokens	Jun 19, 2024	Caption Generationimage-classification	CodeCode Available	0
FoRAG: Factuality-optimized Retrieval Augmented Generation for Web-enhanced Long-form Question Answering	Jun 19, 2024	Answer GenerationForm	—Unverified	0
Nash CoT: Multi-Path Inference with Preference Equilibrium	Jun 18, 2024	DiversityQuestion Answering	CodeCode Available	0
LightPAL: Lightweight Passage Retrieval for Open Domain Multi-Document Summarization	Jun 18, 2024	Document SummarizationLanguage Modelling	—Unverified	0
Intermediate Distillation: Data-Efficient Distillation from Black-Box LLMs for Information Retrieval	Jun 18, 2024	Information RetrievalKnowledge Distillation	—Unverified	0
Towards Understanding Domain Adapted Sentence Embeddings for Document Retrieval	Jun 18, 2024	Domain AdaptationQuestion Answering	—Unverified	0
Diversify, Rationalize, and Combine: Ensembling Multiple QA Strategies for Zero-shot Knowledge-based VQA	Jun 18, 2024	Question AnsweringVisual Question Answering	CodeCode Available	0
Exploring the Robustness of Language Models for Tabular Question Answering via Attention Analysis	Jun 18, 2024	In-Context LearningQuestion Answering	—Unverified	0
GW-MoE: Resolving Uncertainty in MoE Router with Global Workspace Theory	Jun 18, 2024	Code GenerationMathematical Problem-Solving	CodeCode Available	0
Hierarchical Prompting Taxonomy: A Universal Evaluation Framework for Large Language Models Aligned with Human Cognitive Principles	Jun 18, 2024	Arithmetic ReasoningCode Generation	CodeCode Available	1
VoCo-LLaMA: Towards Vision Compression with Large Language Models	Jun 18, 2024	Computational EfficiencyQuestion Answering	CodeCode Available	3
Breaking the Ceiling of the LLM Community by Treating Token Generation as a Classification for Ensembling	Jun 18, 2024	Arithmetic ReasoningLanguage Modeling	CodeCode Available	2
From RAGs to rich parameters: Probing how language models utilize external knowledge over parametric information for factual queries	Jun 18, 2024	Question AnsweringRAG	—Unverified	0
PSLM: Parallel Generation of Text and Speech with LLMs for Low-Latency Spoken Dialogue Systems	Jun 18, 2024	Language ModelingLanguage Modelling	—Unverified	0
VRSBench: A Versatile Vision-Language Benchmark Dataset for Remote Sensing Image Understanding	Jun 18, 2024	Image CaptioningQuestion Answering	CodeCode Available	2
Problem-Solving in Language Model Networks	Jun 18, 2024	Language ModelingLanguage Modelling	CodeCode Available	0
InternalInspector I^2: Robust Confidence Estimation in LLMs through Internal States	Jun 17, 2024	BenchmarkingContrastive Learning	—Unverified	0
Learn Beyond The Answer: Training Language Models with Reflection for Mathematical Reasoning	Jun 17, 2024	Data AugmentationMathematical Reasoning	CodeCode Available	2
Do Not Design, Learn: A Trainable Scoring Function for Uncertainty Estimation in Generative LLMs	Jun 17, 2024	Question Answering	—Unverified	0
Mitigating Large Language Model Hallucination with Faithful Finetuning	Jun 17, 2024	HallucinationLanguage Modeling	—Unverified	0
MedCalc-Bench: Evaluating Large Language Models for Medical Calculations	Jun 17, 2024	DescriptiveMedical Diagnosis	CodeCode Available	2

Show:10 25 50

← PrevPage 95 of 433Next →

All datasets SQuAD2.0 SQuAD1.1 HotpotQA PIQA BoolQ COPA TriviaQA SQuAD1.1 dev Natural Questions OpenBookQA TruthfulQA MultiRC

Benchmark Results

#	Model	Metric	Claimed	Verified	Status
1	IE-Net (ensemble)	EM	90.94	—	Unverified
2	FPNet (ensemble)	EM	90.87	—	Unverified
3	IE-NetV2 (ensemble)	EM	90.86	—	Unverified
4	SA-Net on Albert (ensemble)	EM	90.72	—	Unverified
5	SA-Net-V2 (ensemble)	EM	90.68	—	Unverified
6	FPNet (ensemble)	EM	90.6	—	Unverified
7	Retro-Reader (ensemble)	EM	90.58	—	Unverified
8	EntitySpanFocusV2 (ensemble)	EM	90.52	—	Unverified
9	TransNets + SFVerifier + SFEnsembler (ensemble)	EM	90.49	—	Unverified
10	EntitySpanFocus+AT (ensemble)	EM	90.45	—	Unverified