Question Answering

Question answering can be segmented into domain-specific tasks like community question answering and knowledge-base question answering. Popular benchmark datasets for evaluation question answering systems include SQuAD, HotPotQA, bAbI, TriviaQA, WikiQA, and many others. Models for question answering are typically evaluated on metrics like EM and F1. Some recent top performing models are T5 and XLNet.

( Image credit: SQuAD )

Papers

Recently Added Most Hyped Most Active Needs Verification Most Verified

Showing 1326–1350 of 10817 papers

Title	Date	Tasks	Status	Hype	Score
Counterfactual Variable Control for Robust and Interpretable Question Answering	Oct 12, 2020	Causal Inferencecounterfactual	CodeCode Available	1	5
ClashEval: Quantifying the tug-of-war between an LLM's internal prior and external evidence	Apr 16, 2024	Question AnsweringRAG	CodeCode Available	1	5
3D-Aware Visual Question Answering about Parts, Poses and Occlusions	Oct 27, 2023	Question AnsweringVisual Question Answering	CodeCode Available	1	5
COVID-QA: A Question Answering Dataset for COVID-19	Jul 1, 2020	ArticlesQuestion Answering	CodeCode Available	1	5
COVID-19 event extraction from Twitter via extractive question answering with continuous prompts	Mar 19, 2023	BenchmarkingEvent Extraction	CodeCode Available	1	5
CRAFT: A Benchmark for Causal Reasoning About Forces and inTeractions	Dec 8, 2020	counterfactualDescriptive	CodeCode Available	1	5
Citekit: A Modular Toolkit for Large Language Model Citation Generation	Aug 6, 2024	Language ModelingLanguage Modelling	CodeCode Available	1	5
CRAFT Your Dataset: Task-Specific Synthetic Dataset Generation Through Corpus Retrieval and Augmentation	Sep 3, 2024	Dataset GenerationQuestion Answering	CodeCode Available	1	5
How Language Model Hallucinations Can Snowball	May 22, 2023	HallucinationLanguage Modeling	CodeCode Available	1	5
How Do Multimodal Large Language Models Handle Complex Multimodal Reasoning? Placing Them in An Extensible Escape Game	Mar 13, 2025	Multimodal ReasoningQuestion Answering	CodeCode Available	1	5
CityEQA: A Hierarchical LLM Agent on Embodied Question Answering Benchmark in City Space	Feb 18, 2025	Embodied Question AnsweringQuestion Answering	CodeCode Available	1	5
Creating Custom Event Data Without Dictionaries: A Bag-of-Tricks	Apr 3, 2023	Active LearningQuestion Answering	CodeCode Available	1	5
CKBP v2: Better Annotation and Reasoning for Commonsense Knowledge Base Population	Apr 20, 2023	Knowledge Base PopulationQuestion Answering	CodeCode Available	1	5
Baby's CoThought: Leveraging Large Language Models for Enhanced Reasoning in Compact Models	Aug 3, 2023	In-Context LearningNatural Language Understanding	CodeCode Available	1	5
CREPE: Open-Domain Question Answering with False Presuppositions	Nov 30, 2022	Open-Domain Question AnsweringQuestion Answering	CodeCode Available	1	5
How do Decisions Emerge across Layers in Neural Models? Interpretation with Differentiable Masking	Apr 30, 2020	PredictionQuestion Answering	CodeCode Available	1	5
Knowledge Infused Decoding	Apr 6, 2022	counterfactualQuestion Answering	CodeCode Available	1	5
ChiQA: A Large Scale Image-based Real-World Question Answering Dataset for Multi-Modal Understanding	Aug 5, 2022	Image RetrievalQuestion Answering	CodeCode Available	1	5
ChroniclingAmericaQA: A Large-scale Question Answering Dataset based on Historical American Newspaper Pages	Mar 26, 2024	Machine Reading ComprehensionOptical Character Recognition (OCR)	CodeCode Available	1	5
CuriousLLM: Elevating Multi-Document QA with Reasoning-Infused Knowledge Graph Prompting	Apr 13, 2024	HallucinationKnowledge Graphs	CodeCode Available	1	5
Debate on Graph: a Flexible and Reliable Reasoning Framework for Large Language Models	Sep 5, 2024	Answer GenerationGraph Question Answering	CodeCode Available	1	5
How Does BERT Answer Questions? A Layer-Wise Analysis of Transformer Representations	Sep 11, 2019	Question Answering	CodeCode Available	1	5
KQA Pro: A Dataset with Explicit Compositional Programs for Complex Question Answering over Knowledge Base	Jul 8, 2020	AttributeDiagnostic	CodeCode Available	1	5
Cross-Modal BERT for Text-Audio Sentiment Analysis	Oct 12, 2020	Multimodal Sentiment AnalysisNatural Language Inference	CodeCode Available	1	5
How Much Can CLIP Benefit Vision-and-Language Tasks?	Jul 13, 2021	Question AnsweringVision and Language Navigation	CodeCode Available	1	5

Show:10 25 50

← PrevPage 54 of 433Next →

All datasets SQuAD2.0 SQuAD1.1 HotpotQA PIQA BoolQ COPA TriviaQA SQuAD1.1 dev Natural Questions OpenBookQA TruthfulQA MultiRC

Benchmark Results

#	Model	Metric	Claimed	Verified	Status
1	IE-Net (ensemble)	EM	90.94	—	Unverified
2	FPNet (ensemble)	EM	90.87	—	Unverified
3	IE-NetV2 (ensemble)	EM	90.86	—	Unverified
4	SA-Net on Albert (ensemble)	EM	90.72	—	Unverified
5	SA-Net-V2 (ensemble)	EM	90.68	—	Unverified
6	FPNet (ensemble)	EM	90.6	—	Unverified
7	Retro-Reader (ensemble)	EM	90.58	—	Unverified
8	EntitySpanFocusV2 (ensemble)	EM	90.52	—	Unverified
9	TransNets + SFVerifier + SFEnsembler (ensemble)	EM	90.49	—	Unverified
10	EntitySpanFocus+AT (ensemble)	EM	90.45	—	Unverified