Question Answering

Question answering can be segmented into domain-specific tasks like community question answering and knowledge-base question answering. Popular benchmark datasets for evaluation question answering systems include SQuAD, HotPotQA, bAbI, TriviaQA, WikiQA, and many others. Models for question answering are typically evaluated on metrics like EM and F1. Some recent top performing models are T5 and XLNet.

( Image credit: SQuAD )

Papers

Recently Added Most Hyped Most Active Needs Verification Most Verified

Showing 7901–7925 of 10817 papers

Title	Date	Tasks	Status
Investigating and Addressing Hallucinations of LLMs in Tasks Involving Negation	Jun 8, 2024	Abstractive Text SummarizationDialogue Generation	—Unverified
Question-to-Question Retrieval for Hallucination-Free Knowledge Access: An Approach for Wikipedia and Wikidata Question Answering	Jan 20, 2025	Answer GenerationComputational Efficiency	—Unverified
Inverse Visual Question Answering with Multi-Level Attentions	Sep 17, 2019	Question AnsweringVisual Question Answering	—Unverified
Quick and (not so) Dirty: Unsupervised Selection of Justification Sentences for Multi-hop Question Answering	Nov 17, 2019	ARCInformation Retrieval	—Unverified
Inverse Visual Question Answering: A New Benchmark and VQA Diagnosis Tool	Mar 16, 2018	Question AnsweringReinforcement Learning	—Unverified
Invar-RAG: Invariant LLM-aligned Retrieval for Better Generation	Nov 11, 2024	HallucinationInformation Retrieval	—Unverified
Automated Answer Validation using Text Similarity	Jan 13, 2024	Information RetrievalMultiple-choice	—Unverified
QUINT: Interpretable Question Answering over Knowledge Bases	Sep 1, 2017	Named Entity Recognition (NER)Question Answering	—Unverified
CSS: Combining Self-training and Self-supervised Learning for Few-shot Dialogue State Tracking	Oct 11, 2022	Dialogue State TrackingMachine Reading Comprehension	—Unverified
Introduction to Neural Network based Approaches for Question Answering over Knowledge Graphs	Jul 22, 2019	Knowledge GraphsQuestion Answering	—Unverified
Introduction of a Probabilistic Language Model to Non-Factoid Question Answering Using Example Q\&A Pairs	Nov 1, 2012	Language ModelingLanguage Modelling	—Unverified
CSReader at SemEval-2018 Task 11: Multiple Choice Question Answering as Textual Entailment	Jun 1, 2018	Common Sense ReasoningLanguage Modelling	—Unverified
AutoKnow: Self-Driving Knowledge Collection for Products of Thousands of Types	Jun 24, 2020	Anomaly DetectionKnowledge Graphs	—Unverified
QurAna: Corpus of the Quran annotated with Pronominal Anaphora	May 1, 2012	Coreference ResolutionInformation Retrieval	—Unverified
An Audio-enriched BERT-based Framework for Spoken Multiple-choice Question Answering	May 25, 2020	Automatic Speech RecognitionAutomatic Speech Recognition (ASR)	—Unverified
Introduction method for argumentative dialogue using paired question-answering interchange about personality	Jul 1, 2018	Decision MakingQuestion Answering	—Unverified
Introducing Semantics into Speech Encoders	Nov 15, 2022	Automatic Speech RecognitionAutomatic Speech Recognition (ASR)	—Unverified
Introducing RezoJDM16k: a French KnowledgeGraph DataSet for Link Prediction	Jun 1, 2022	16kBenchmarking	—Unverified
CS-NLP team at SemEval-2020 Task 4: Evaluation of State-of-the-art NLP Deep Learning Architectures on Commonsense Reasoning Task	May 17, 2020	Multiple-choiceNatural Language Inference	—Unverified
R3: A Reading Comprehension Benchmark Requiring Reasoning Processes	Apr 2, 2020	Question AnsweringReading Comprehension	—Unverified
R3 : Refined Retriever-Reader pipeline for Multidoc2dial	May 1, 2022	Conversational Question AnsweringDecoder	—Unverified
Introducing "Forecast Utterance" for Conversational Data Science	Sep 7, 2023	PredictionQuestion Answering	—Unverified
R4: Reinforced Retriever-Reorder-Responder for Retrieval-Augmented Large Language Models	May 4, 2024	Graph AttentionHallucination	—Unverified
RA-BLIP: Multimodal Adaptive Retrieval-Augmented Bootstrapping Language-Image Pre-training	Oct 18, 2024	DenoisingQuestion Answering	—Unverified
CSE-SFP: Enabling Unsupervised Sentence Representation Learning via a Single Forward Pass	May 1, 2025	Contrastive LearningInformation Retrieval	—Unverified

Show:10 25 50

← PrevPage 317 of 433Next →

All datasets SQuAD2.0 SQuAD1.1 HotpotQA PIQA BoolQ COPA TriviaQA SQuAD1.1 dev Natural Questions OpenBookQA TruthfulQA MultiRC

Benchmark Results

#	Model	Metric	Claimed	Verified	Status
1	IE-Net (ensemble)	EM	90.94	—	Unverified
2	FPNet (ensemble)	EM	90.87	—	Unverified
3	IE-NetV2 (ensemble)	EM	90.86	—	Unverified
4	SA-Net on Albert (ensemble)	EM	90.72	—	Unverified
5	SA-Net-V2 (ensemble)	EM	90.68	—	Unverified
6	FPNet (ensemble)	EM	90.6	—	Unverified
7	Retro-Reader (ensemble)	EM	90.58	—	Unverified
8	EntitySpanFocusV2 (ensemble)	EM	90.52	—	Unverified
9	TransNets + SFVerifier + SFEnsembler (ensemble)	EM	90.49	—	Unverified
10	EntitySpanFocus+AT (ensemble)	EM	90.45	—	Unverified