Question Answering

Question answering can be segmented into domain-specific tasks like community question answering and knowledge-base question answering. Popular benchmark datasets for evaluation question answering systems include SQuAD, HotPotQA, bAbI, TriviaQA, WikiQA, and many others. Models for question answering are typically evaluated on metrics like EM and F1. Some recent top performing models are T5 and XLNet.

( Image credit: SQuAD )

Papers

Recently Added Most Hyped Most Active Needs Verification Most Verified

Showing 3051–3075 of 10817 papers

Title	Date	Tasks	Status	Hype
API Is Enough: Conformal Prediction for Large Language Models Without Logit-Access	Mar 2, 2024	Conformal PredictionOpen-Ended Question Answering	—Unverified	0
VBART: The Turkish LLM	Mar 2, 2024	Abstractive Text SummarizationQuestion Answering	—Unverified	0
MediSwift: Efficient Sparse Pre-trained Biomedical Language Models	Mar 1, 2024	Question Answering	—Unverified	0
LocalRQA: From Generating Data to Locally Training, Testing, and Deploying Retrieval-Augmented QA Systems	Mar 1, 2024	Question AnsweringRetrieval	CodeCode Available	0
Multimodal ArXiv: A Dataset for Improving Scientific Comprehension of Large Vision-Language Models	Mar 1, 2024	BenchmarkingMathematical Reasoning	—Unverified	0
Let LLMs Take on the Latest Challenges! A Chinese Dynamic Question Answering Benchmark	Feb 29, 2024	Question Answering	CodeCode Available	1
TV-TREES: Multimodal Entailment Trees for Neuro-Symbolic Video Reasoning	Feb 29, 2024	Question AnsweringVideo Understanding	—Unverified	0
Survey in Characterization of Semantic Change	Feb 29, 2024	Information RetrievalQuestion Answering	—Unverified	0
OpenMedLM: Prompt engineering can out-perform fine-tuning in medical question-answering with open-source large language models	Feb 29, 2024	Medical Question AnsweringMedQA	—Unverified	0
Prompting Explicit and Implicit Knowledge for Multi-hop Question Answering Based on Human Reading Process	Feb 29, 2024	Multi-hop Question AnsweringQuestion Answering	—Unverified	0
Learning to Generate Instruction Tuning Datasets for Zero-Shot Task Adaptation	Feb 28, 2024	AttributeExtractive Question-Answering	CodeCode Available	4
Characterizing Truthfulness in Large Language Model Generations with Local Intrinsic Dimension	Feb 28, 2024	Language ModelingLanguage Modelling	CodeCode Available	1
Benchmarking Large Language Models on Answering and Explaining Challenging Medical Questions	Feb 28, 2024	BenchmarkingMultiple-choice	CodeCode Available	1
Unsupervised Information Refinement Training of Large Language Models for Retrieval-Augmented Generation	Feb 28, 2024	Code GenerationIn-Context Learning	CodeCode Available	2
Can GPT Improve the State of Prior Authorization via Guideline Based Automated Question Answering?	Feb 28, 2024	Question AnsweringText Generation	—Unverified	0
A Cognitive Evaluation Benchmark of Image Reasoning and Description for Large Vision-Language Models	Feb 28, 2024	Image DescriptionQuestion Answering	—Unverified	0
The First Place Solution of WSDM Cup 2024: Leveraging Large Language Models for Conversational Multi-Doc QA	Feb 28, 2024	Natural Language UnderstandingQuestion Answering	CodeCode Available	2
Self-Refinement of Language Models from External Proxy Metrics Feedback	Feb 27, 2024	Question AnsweringResponse Generation	—Unverified	0
Large Language Models(LLMs) on Tabular Data: Prediction, Generation, and Understanding -- A Survey	Feb 27, 2024	Language ModelingLanguage Modelling	CodeCode Available	2
BlendSQL: A Scalable Dialect for Unifying Hybrid Question Answering in Relational Algebra	Feb 27, 2024	Question Answering	CodeCode Available	2
JMLR: Joint Medical LLM and Retrieval Training for Enhancing Reasoning and Professional Question Answering Capability	Feb 27, 2024	GPUInformation Retrieval	CodeCode Available	0
Fact-and-Reflection (FaR) Improves Confidence Calibration of Large Language Models	Feb 27, 2024	Common Sense ReasoningQuestion Answering	CodeCode Available	0
ArcSin: Adaptive ranged cosine Similarity injected noise for Language-Driven Visual Tasks	Feb 27, 2024	Domain GeneralizationImage Captioning	—Unverified	0
Can LLM Generate Culturally Relevant Commonsense QA Data? Case Study in Indonesian and Sundanese	Feb 27, 2024	General KnowledgeQuestion Answering	CodeCode Available	1
TruthX: Alleviating Hallucinations by Editing Large Language Models in Truthful Space	Feb 27, 2024	Contrastive LearningHallucination	CodeCode Available	2

Show:10 25 50

← PrevPage 123 of 433Next →

All datasets SQuAD2.0 SQuAD1.1 HotpotQA PIQA BoolQ COPA TriviaQA SQuAD1.1 dev Natural Questions OpenBookQA TruthfulQA MultiRC

Benchmark Results

#	Model	Metric	Claimed	Verified	Status
1	IE-Net (ensemble)	EM	90.94	—	Unverified
2	FPNet (ensemble)	EM	90.87	—	Unverified
3	IE-NetV2 (ensemble)	EM	90.86	—	Unverified
4	SA-Net on Albert (ensemble)	EM	90.72	—	Unverified
5	SA-Net-V2 (ensemble)	EM	90.68	—	Unverified
6	FPNet (ensemble)	EM	90.6	—	Unverified
7	Retro-Reader (ensemble)	EM	90.58	—	Unverified
8	EntitySpanFocusV2 (ensemble)	EM	90.52	—	Unverified
9	TransNets + SFVerifier + SFEnsembler (ensemble)	EM	90.49	—	Unverified
10	EntitySpanFocus+AT (ensemble)	EM	90.45	—	Unverified