Question Answering

Question answering can be segmented into domain-specific tasks like community question answering and knowledge-base question answering. Popular benchmark datasets for evaluation question answering systems include SQuAD, HotPotQA, bAbI, TriviaQA, WikiQA, and many others. Models for question answering are typically evaluated on metrics like EM and F1. Some recent top performing models are T5 and XLNet.

( Image credit: SQuAD )

Papers

Recently Added Most Hyped Most Active Needs Verification Most Verified

Showing 2401–2450 of 10817 papers

Title	Date	Tasks	Status	Score
Character Identification on Multiparty Conversation: Identifying Mentions of Characters in TV Shows	Sep 1, 2016	Coreference ResolutionEntity Linking	CodeCode Available	5
MapEval: A Map-Based Evaluation of Geo-Spatial Reasoning in Foundation Models	Dec 31, 2024	Multiple-choiceQuestion Answering	CodeCode Available	5
MapQaTor: An Extensible Framework for Efficient Annotation of Map-Based QA Datasets	Dec 30, 2024	Question Answering	CodeCode Available	5
MedViLaM: A multimodal large language model with advanced generalizability and explainability for medical data understanding and generation	Sep 29, 2024	Language ModelingLanguage Modelling	CodeCode Available	5
Mamba Fusion: Learning Actions Through Questioning	Sep 17, 2024	Action AnticipationAction Recognition	CodeCode Available	5
MaMMUT: A Simple Architecture for Joint Learning for MultiModal Tasks	Mar 29, 2023	Cross-Modal RetrievalDecoder	CodeCode Available	5
Make LLMs better zero-shot reasoners: Structure-orientated autonomous reasoning	Oct 18, 2024	Question Answering	CodeCode Available	5
Make Text Unlearnable: Exploiting Effective Patterns to Protect Personal Data	Jul 2, 2023	Question Answeringtext-classification	CodeCode Available	5
MANGO: A Benchmark for Evaluating Mapping and Navigation Abilities of Large Language Models	Mar 29, 2024	Language ModelingLanguage Modelling	CodeCode Available	5
Machine Comprehension Using Match-LSTM and Answer Pointer	Aug 29, 2016	Natural Language InferenceQuestion Answering	CodeCode Available	5
Challenges in Generalization in Open Domain Question Answering	Sep 2, 2021	Natural QuestionsOpen-Domain Question Answering	CodeCode Available	5
Macaw: An Extensible Conversational Information Seeking Platform	Dec 18, 2019	Information RetrievalQuestion Answering	CodeCode Available	5
Machine Comprehension by Text-to-Text Neural Question Generation	May 4, 2017	Question AnsweringQuestion Generation	CodeCode Available	5
MAFiD: Moving Average Equipped Fusion-in-Decoder for Question Answering over Tabular and Textual Data	May 2, 2023	DecoderQuestion Answering	CodeCode Available	5
Are Large Language Models Really Robust to Word-Level Perturbations?	Sep 20, 2023	DiagnosticQuestion Answering	CodeCode Available	5
M2QA: Multi-domain Multilingual Question Answering	Jul 1, 2024	Question Answering	CodeCode Available	5
Question Answering as an Automatic Evaluation Metric for News Article Summarization	Jun 2, 2019	Headline GenerationQuestion Answering	CodeCode Available	5
Are Large Language Models Good at Utility Judgments?	Mar 28, 2024	Answer GenerationBenchmarking	CodeCode Available	5
A Language for Function Signature Representations	Mar 31, 2018	Natural Language UnderstandingQuestion Answering	CodeCode Available	5
LVLM-Compress-Bench: Benchmarking the Broader Impact of Large Vision-Language Model Compression	Mar 6, 2025	BenchmarkingCommon Sense Reasoning	CodeCode Available	5
LPF: A Language-Prior Feedback Objective Function for De-biased Visual Question Answering	May 29, 2021	Question AnsweringVisual Question Answering	CodeCode Available	5
LP-LM: No Hallucinations in Question Answering with Logic Programming	Feb 13, 2025	Question AnsweringSemantic Parsing	CodeCode Available	5
Chain-of-Action: Faithful and Multimodal Question Answering through Large Language Models	Mar 26, 2024	HallucinationInformation Retrieval	CodeCode Available	5
Lost in the Middle, and In-Between: Enhancing Language Models' Ability to Reason Over Long Contexts in Multi-Hop QA	Dec 13, 2024	Multi-hop Question AnsweringQuestion Answering	CodeCode Available	5
Lost in Space: Probing Fine-grained Spatial Understanding in Vision and Language Resamplers	Apr 21, 2024	DiagnosticImage Captioning	CodeCode Available	5
Look Before You Leap: A Universal Emergent Decomposition of Retrieval Tasks in Language Models	Dec 13, 2023	AttributeQuestion Answering	CodeCode Available	5
Looking Beyond Visible Cues: Implicit Video Question Answering via Dual-Clue Reasoning	Jun 9, 2025	Future predictionQuestion Answering	CodeCode Available	5
A Knowledge-Grounded Multimodal Search-Based Conversational Agent	Oct 20, 2018	DecoderQuestion Answering	CodeCode Available	5
A Recurrent BERT-based Model for Question Generation	Nov 1, 2019	Language ModelingLanguage Modelling	CodeCode Available	5
Look before you Hop: Conversational Question Answering over Knowledge Graphs Using Judicious Context Expansion	Oct 8, 2019	Conversational Question AnsweringKnowledge Graphs	CodeCode Available	5
CERET: Cost-Effective Extrinsic Refinement for Text Generation	Jun 8, 2024	Abstractive Text SummarizationQuestion Answering	CodeCode Available	5
Look, Read and Enrich. Learning from Scientific Figures and their Captions	Sep 19, 2019	Multi-modal ClassificationQuestion Answering	CodeCode Available	5
Long Story Short: a Summarize-then-Search Method for Long Video Question Answering	Nov 2, 2023	DiversityQuestion Answering	CodeCode Available	5
LongFaith: Enhancing Long-Context Reasoning in LLMs with Faithful Synthetic Data	Feb 18, 2025	MisinformationQuestion Answering	CodeCode Available	5
A Benchmark for Long-Form Medical Question Answering	Nov 14, 2024	Answer GenerationForm	CodeCode Available	5
LogiQA 2.0—An Improved Dataset for Logical Reasoning in Natural Language Understanding	Jun 6, 2023	Logical ReasoningLogical Reasoning Reading Comprehension	CodeCode Available	5
CAVE: Correcting Attribute Values in E-commerce Profiles	Oct 17, 2022	AttributeAttribute Value Extraction	CodeCode Available	5
Logic Query of Thoughts: Guiding Large Language Models to Answer Complex Logic Queries with Knowledge Graphs	Mar 17, 2024	HallucinationKnowledge Graphs	CodeCode Available	5
Logical Implications for Visual Question Answering Consistency	Mar 16, 2023	Language ModelingLanguage Modelling	CodeCode Available	5
Long-context Non-factoid Question Answering in Indic Languages	Apr 18, 2025	coreference-resolutionCoreference Resolution	CodeCode Available	5
Causal Question Answering with Reinforcement Learning	Nov 5, 2023	Fact CheckingLink Prediction	CodeCode Available	5
CausalQA: A Benchmark for Causal Question Answering	Oct 1, 2022	Question Answering	CodeCode Available	5
Causal Graphs Meet Thoughts: Enhancing Complex Reasoning in Graph-Augmented LLMs	Jan 24, 2025	Knowledge GraphsMedical Question Answering	CodeCode Available	5
A Joint Sequence Fusion Model for Video Question Answering and Retrieval	Aug 7, 2018	DecoderMultiple-choice	CodeCode Available	5
Location Aware Modular Biencoder for Tourism Question Answering	Jan 4, 2024	Question AnsweringRetrieval	CodeCode Available	5
A Benchmark for Generalizable and Interpretable Temporal Question Answering over Knowledge Bases	Jan 15, 2022	Knowledge Base Question AnsweringQuestion Answering	CodeCode Available	5
CATfOOD: Counterfactual Augmented Training for Improving Out-of-Domain Performance and Calibration	Sep 14, 2023	counterfactualData Augmentation	CodeCode Available	5
Loss re-scaling VQA: Revisiting the LanguagePrior Problem from a Class-imbalance View	Oct 30, 2020	Face Recognitionimage-classification	CodeCode Available	5
MeeQA: Natural Questions in Meeting Transcripts	May 15, 2023	Natural QuestionsQuestion Answering	CodeCode Available	5
CATENA: CAusal and TEmporal relation extraction from NAtural language texts	Dec 1, 2016	General ClassificationQuestion Answering	CodeCode Available	5

Show:10 25 50

← PrevPage 49 of 217Next →

All datasets SQuAD2.0 SQuAD1.1 HotpotQA PIQA BoolQ COPA TriviaQA SQuAD1.1 dev Natural Questions OpenBookQA TruthfulQA MultiRC

Benchmark Results

#	Model	Metric	Claimed	Verified	Status
1	IE-Net (ensemble)	EM	90.94	—	Unverified
2	FPNet (ensemble)	EM	90.87	—	Unverified
3	IE-NetV2 (ensemble)	EM	90.86	—	Unverified
4	SA-Net on Albert (ensemble)	EM	90.72	—	Unverified
5	SA-Net-V2 (ensemble)	EM	90.68	—	Unverified
6	FPNet (ensemble)	EM	90.6	—	Unverified
7	Retro-Reader (ensemble)	EM	90.58	—	Unverified
8	EntitySpanFocusV2 (ensemble)	EM	90.52	—	Unverified
9	TransNets + SFVerifier + SFEnsembler (ensemble)	EM	90.49	—	Unverified
10	EntitySpanFocus+AT (ensemble)	EM	90.45	—	Unverified