Question Answering

Question answering can be segmented into domain-specific tasks like community question answering and knowledge-base question answering. Popular benchmark datasets for evaluation question answering systems include SQuAD, HotPotQA, bAbI, TriviaQA, WikiQA, and many others. Models for question answering are typically evaluated on metrics like EM and F1. Some recent top performing models are T5 and XLNet.

( Image credit: SQuAD )

Papers

Recently Added Most Hyped Most Active Needs Verification Most Verified

Showing 9551–9600 of 10817 papers

Title	Date	Tasks	Status
Language Models Can See Better: Visual Contrastive Decoding For LLM Multimodal Reasoning	Feb 17, 2025	In-Context LearningMultimodal Reasoning	CodeCode Available
FriendsQA: A New Large-Scale Deep Video Understanding Dataset with Fine-grained Topic Categorization for Story Videos	Dec 22, 2024	Language ModellingLarge Language Model	CodeCode Available
Consistency of Compositional Generalization across Multiple Levels	Dec 18, 2024	Meta-LearningQuestion Answering	CodeCode Available
Language Models Still Struggle to Zero-shot Reason about Time Series	Apr 17, 2024	Language ModelingLanguage Modelling	CodeCode Available
FrenchMedMCQA: A French Multiple-Choice Question Answering Dataset for Medical domain	Apr 9, 2023	Multiple-choiceMultiple Choice Question Answering (MCQA)	CodeCode Available
ConEntail: An Entailment-based Framework for Universal Zero and Few Shot Classification with Supervised Contrastive Pretraining	Oct 14, 2022	ClassificationNatural Language Inference	CodeCode Available
Russian Jeopardy! Data Set for Question-Answering Systems	Jun 1, 2022	named-entity-recognitionNamed Entity Recognition	CodeCode Available
FreebaseQA: A New Factoid QA Data Set Matching Trivia-Style Question-Answer Pairs with Freebase	Jun 1, 2019	Question Answeringset matching	CodeCode Available
FREB-TQA: A Fine-Grained Robustness Evaluation Benchmark for Table Question Answering	Apr 29, 2024	Question Answering	CodeCode Available
FRAMES-VQA: Benchmarking Fine-Tuning Robustness across Multi-Modal Shifts in Visual Question Answering	May 27, 2025	BenchmarkingQuestion Answering	CodeCode Available
Frame- and Entity-Based Knowledge for Common-Sense Argumentative Reasoning	Nov 1, 2018	Argument MiningCommon Sense Reasoning	CodeCode Available
Conditioning LSTM Decoder and Bi-directional Attention Based Question Answering System	May 2, 2019	DecoderQuestion Answering	CodeCode Available
Abductive Commonsense Reasoning	Aug 15, 2019	Multiple-choiceNatural Language Inference	CodeCode Available
Robust and Scalable Differentiable Neural Computer for Question Answering	Jul 7, 2018	Question Answering	CodeCode Available
Phrase-Indexed Question Answering: A New Challenge for Scalable Document Comprehension	Apr 20, 2018	Question AnsweringReading Comprehension	CodeCode Available
Multimodal Residual Learning for Visual QA	Jun 5, 2016	Multiple-choiceQuestion Answering	CodeCode Available
Phrase Retrieval for Open-Domain Conversational Question Answering with Conversational Dependency Modeling via Contrastive Learning	Jun 7, 2023	Contrastive LearningConversational Question Answering	CodeCode Available
Large Language Models and Multimodal Retrieval for Visual Word Sense Disambiguation	Oct 21, 2023	Answer GenerationImage Retrieval	CodeCode Available
ForPKG: A Framework for Constructing Forestry Policy Knowledge Graph and Application Analysis	Nov 17, 2024	graph constructionKnowledge Graphs	CodeCode Available
BERT Based Multilingual Machine Comprehension in English and Hindi	Jun 2, 2020	Multilingual Machine Comprehension in English HindiQuestion Answering	CodeCode Available
Russian Web Tables: A Public Corpus of Web Tables for Russian Language Based on Wikipedia	Oct 3, 2022	Knowledge Base ConstructionManagement	CodeCode Available
FormulaReasoning: A Dataset for Formula-Based Numerical Reasoning	Feb 20, 2024	Data AugmentationHigh School Physics	CodeCode Available
Foreseeing the Benefits of Incidental Supervision	Jun 9, 2020	InformativenessLearning Theory	CodeCode Available
Concise Answers to Complex Questions: Summarization of Long-form Answers	May 30, 2023	Extractive SummarizationForm	CodeCode Available
Large Language Models as Interpolated and Extrapolated Event Predictors	Jun 15, 2024	Knowledge GraphsQuestion Answering	CodeCode Available
ForecastTKGQuestions: A Benchmark for Temporal Question Answering and Forecasting over Temporal Knowledge Graphs	Aug 12, 2022	Knowledge GraphsQuestion Answering	CodeCode Available
Compressing And Debiasing Vision-Language Pre-Trained Models for Visual Question Answering	Oct 26, 2022	Question AnsweringVisual Question Answering	CodeCode Available
BEnQA: A Question Answering and Reasoning Benchmark for Bengali and English	Mar 16, 2024	Question Answering	CodeCode Available
Focus, Merge, Rank: Improved Question Answering Based on Semi-structured Knowledge Bases	May 14, 2025	Knowledge GraphsMulti-hop Question Answering	CodeCode Available
Focal Visual-Text Attention for Visual Question Answering	Jun 5, 2018	Memex Question AnsweringQuestion Answering	CodeCode Available
Question Answering over Linked Data with GPT-3	Aug 15, 2023	Knowledge Base Question AnsweringQuestion Answering	CodeCode Available
Composition Vision-Language Understanding via Segment and Depth Anything Model	Jun 7, 2024	Question AnsweringVisual Question Answering (VQA)	CodeCode Available
Focal Visual-Text Attention for Memex Question Answering	Dec 14, 2018	Memex Question AnsweringQuestion Answering	CodeCode Available
Beneath Surface Similarity: Large Language Models Make Reasonable Scientific Analogies after Structure Abduction	May 22, 2023	Novel ConceptsQuestion Answering	CodeCode Available
FM2DS: Few-Shot Multimodal Multihop Data Synthesis with Knowledge Distillation for Question Answering	Dec 9, 2024	Knowledge DistillationQuestion Answering	CodeCode Available
FlowQA: Grasping Flow in History for Conversational Machine Comprehension	Oct 6, 2018	Question AnsweringReading Comprehension	CodeCode Available
PiC: A Phrase-in-Context Dataset for Phrase Understanding and Semantic Search	Jul 19, 2022	Information RetrievalNatural Language Understanding	CodeCode Available
Fleurs-SLU: A Massively Multilingual Benchmark for Spoken Language Understanding	Jan 10, 2025	Automatic Speech RecognitionClassification	CodeCode Available
Large Language Models Need Holistically Thought in Medical Conversational QA	May 9, 2023	Conversational Question AnsweringQuestion Answering	CodeCode Available
FiVL: A Framework for Improved Vision-Language Alignment	Dec 19, 2024	Answer GenerationMultimodal Reasoning	CodeCode Available
Large Language Models on Wikipedia-Style Survey Generation: an Evaluation in NLP Concepts	Aug 21, 2023	ArticlesHallucination	CodeCode Available
Fine Tuning vs. Retrieval Augmented Generation for Less Popular Knowledge	Mar 3, 2024	Data AugmentationQuestion Answering	CodeCode Available
Evaluating Fine-Tuning Efficiency of Human-Inspired Learning Strategies in Medical Question Answering	Aug 15, 2024	Medical Question AnsweringNatural Language Understanding	CodeCode Available
Large Language Models Understand Layout	Jul 8, 2024	Question AnsweringVisual Question Answering	CodeCode Available
Fine-tuning Large Language Models for Improving Factuality in Legal Question Answering	Jan 11, 2025	HallucinationQuestion Answering	CodeCode Available
Large Models in Dialogue for Active Perception and Anomaly Detection	Jan 27, 2025	Anomaly DetectionQuestion Answering	CodeCode Available
ReDiT: Re‑evaluating large visual question answering model confidence by defining input scenario Difficulty and applying Temperature mapping	Jan 6, 2025	Question AnsweringVisual Question Answering	CodeCode Available
A review of Spanish corpora annotated with negation	Aug 1, 2018	NegationQuestion Answering	CodeCode Available
MultiOCR-QA: Dataset for Evaluating Robustness of LLMs in Question Answering on Multilingual OCR Texts	Feb 24, 2025	Optical Character RecognitionOptical Character Recognition (OCR)	CodeCode Available
Fine-Tuning and Retrieval Augmented Generation for Question Answering Using Affordable Large Language Models	May 1, 2024	Question AnsweringRetrieval	CodeCode Available

Show:10 25 50

← PrevPage 192 of 217Next →

All datasets SQuAD2.0 SQuAD1.1 HotpotQA PIQA BoolQ COPA TriviaQA SQuAD1.1 dev Natural Questions OpenBookQA TruthfulQA MultiRC

Benchmark Results

#	Model	Metric	Claimed	Verified	Status
1	IE-Net (ensemble)	EM	90.94	—	Unverified
2	FPNet (ensemble)	EM	90.87	—	Unverified
3	IE-NetV2 (ensemble)	EM	90.86	—	Unverified
4	SA-Net on Albert (ensemble)	EM	90.72	—	Unverified
5	SA-Net-V2 (ensemble)	EM	90.68	—	Unverified
6	FPNet (ensemble)	EM	90.6	—	Unverified
7	Retro-Reader (ensemble)	EM	90.58	—	Unverified
8	EntitySpanFocusV2 (ensemble)	EM	90.52	—	Unverified
9	TransNets + SFVerifier + SFEnsembler (ensemble)	EM	90.49	—	Unverified
10	EntitySpanFocus+AT (ensemble)	EM	90.45	—	Unverified