Question Answering

Question answering can be segmented into domain-specific tasks like community question answering and knowledge-base question answering. Popular benchmark datasets for evaluation question answering systems include SQuAD, HotPotQA, bAbI, TriviaQA, WikiQA, and many others. Models for question answering are typically evaluated on metrics like EM and F1. Some recent top performing models are T5 and XLNet.

( Image credit: SQuAD )

Papers

Recently Added Most Hyped Most Active Needs Verification Most Verified

Showing 1301–1350 of 10817 papers

Title	Date	Tasks	Status	Hype	Score
ControlLM: Crafting Diverse Personalities for Language Models	Feb 15, 2024	Question Answering	CodeCode Available	1	5
How to Configure Good In-Context Sequence for Visual Question Answering	Dec 4, 2023	In-Context LearningQuestion Answering	CodeCode Available	1	5
Classification-Regression for Chart Comprehension	Nov 29, 2021	Chart Question AnsweringClassification	CodeCode Available	1	5
How to Get Your LLM to Generate Challenging Problems for Evaluation	Feb 20, 2025	Code CompletionMath	CodeCode Available	1	5
ClarQ: A large-scale and diverse dataset for Clarification Question Generation	Jun 10, 2020	Question AnsweringQuestion Generation	CodeCode Available	1	5
KETM:A Knowledge-Enhanced Text Matching method	Aug 11, 2023	Common Sense ReasoningQuestion Answering	CodeCode Available	1	5
AutoQA: From Databases To QA Semantic Parsers With Only Synthetic Training Data	Oct 9, 2020	AttributeNatural Questions	CodeCode Available	1	5
Autoregressive Entity Retrieval	Oct 2, 2020	Entity DisambiguationEntity Linking	CodeCode Available	1	5
An Empirical Study of GPT-3 for Few-Shot Knowledge-Based VQA	Sep 10, 2021	Image CaptioningQuestion Answering	CodeCode Available	1	5
CLEVR: A Diagnostic Dataset for Compositional Language and Elementary Visual Reasoning	Dec 20, 2016	DiagnosticQuestion Answering	CodeCode Available	1	5
A Comparative Study of Pretrained Language Models for Long Clinical Text	Jan 27, 2023	Clinical KnowledgeDocument Classification	CodeCode Available	1	5
Coupling Large Language Models with Logic Programming for Robust and General Reasoning from Text	Jul 15, 2023	Language ModelingLanguage Modelling	CodeCode Available	1	5
Clinical-Longformer and Clinical-BigBird: Transformers for long clinical sequences	Jan 27, 2022	Clinical KnowledgeDocument Classification	CodeCode Available	1	5
How to Train BERT with an Academic Budget	Apr 15, 2021	Language ModelingLanguage Modelling	CodeCode Available	1	5
AVeriTeC: A Dataset for Real-world Claim Verification with Evidence from the Web	May 22, 2023	Claim VerificationFact Checking	CodeCode Available	1	5
CoRel: Seed-Guided Topical Taxonomy Construction by Concept Learning and Relation Transferring	Oct 13, 2020	Question AnsweringRelation	CodeCode Available	1	5
KLEJ: Comprehensive Benchmark for Polish Language Understanding	May 1, 2020	named-entity-recognitionNamed Entity Recognition	CodeCode Available	1	5
Knowing More About Questions Can Help: Improving Calibration in Question Answering	Jun 2, 2021	Answer GenerationData Augmentation	CodeCode Available	1	5
DiReCT: Diagnostic Reasoning for Clinical Notes via Large Language Models	Aug 4, 2024	DiagnosticMedical Question Answering	CodeCode Available	1	5
CoSQA: 20,000+ Web Queries for Code Search and Question Answering	May 27, 2021	Code SearchContrastive Learning	CodeCode Available	1	5
Knowledge-Driven CoT: Exploring Faithful Reasoning in LLMs for Knowledge-intensive Question Answering	Aug 25, 2023	In-Context LearningQuestion Answering	CodeCode Available	1	5
CoTKR: Chain-of-Thought Enhanced Knowledge Rewriting for Complex Knowledge Graph Question Answering	Sep 29, 2024	Graph Question AnsweringQuestion Answering	CodeCode Available	1	5
HybridQA: A Dataset of Multi-Hop Question Answering over Tabular and Textual Data	Apr 15, 2020	Multi-hop Question AnsweringQuestion Answering	CodeCode Available	1	5
Lever LM: Configuring In-Context Sequence to Lever Large Vision Language Models	Dec 15, 2023	Image CaptioningIn-Context Learning	CodeCode Available	1	5
Counterfactual Samples Synthesizing for Robust Visual Question Answering	Mar 14, 2020	counterfactualQuestion Answering	CodeCode Available	1	5
Counterfactual Variable Control for Robust and Interpretable Question Answering	Oct 12, 2020	Causal Inferencecounterfactual	CodeCode Available	1	5
ClashEval: Quantifying the tug-of-war between an LLM's internal prior and external evidence	Apr 16, 2024	Question AnsweringRAG	CodeCode Available	1	5
3D-Aware Visual Question Answering about Parts, Poses and Occlusions	Oct 27, 2023	Question AnsweringVisual Question Answering	CodeCode Available	1	5
COVID-QA: A Question Answering Dataset for COVID-19	Jul 1, 2020	ArticlesQuestion Answering	CodeCode Available	1	5
COVID-19 event extraction from Twitter via extractive question answering with continuous prompts	Mar 19, 2023	BenchmarkingEvent Extraction	CodeCode Available	1	5
CRAFT: A Benchmark for Causal Reasoning About Forces and inTeractions	Dec 8, 2020	counterfactualDescriptive	CodeCode Available	1	5
Citekit: A Modular Toolkit for Large Language Model Citation Generation	Aug 6, 2024	Language ModelingLanguage Modelling	CodeCode Available	1	5
CRAFT Your Dataset: Task-Specific Synthetic Dataset Generation Through Corpus Retrieval and Augmentation	Sep 3, 2024	Dataset GenerationQuestion Answering	CodeCode Available	1	5
How Language Model Hallucinations Can Snowball	May 22, 2023	HallucinationLanguage Modeling	CodeCode Available	1	5
How Do Multimodal Large Language Models Handle Complex Multimodal Reasoning? Placing Them in An Extensible Escape Game	Mar 13, 2025	Multimodal ReasoningQuestion Answering	CodeCode Available	1	5
CityEQA: A Hierarchical LLM Agent on Embodied Question Answering Benchmark in City Space	Feb 18, 2025	Embodied Question AnsweringQuestion Answering	CodeCode Available	1	5
Creating Custom Event Data Without Dictionaries: A Bag-of-Tricks	Apr 3, 2023	Active LearningQuestion Answering	CodeCode Available	1	5
CKBP v2: Better Annotation and Reasoning for Commonsense Knowledge Base Population	Apr 20, 2023	Knowledge Base PopulationQuestion Answering	CodeCode Available	1	5
Baby's CoThought: Leveraging Large Language Models for Enhanced Reasoning in Compact Models	Aug 3, 2023	In-Context LearningNatural Language Understanding	CodeCode Available	1	5
CREPE: Open-Domain Question Answering with False Presuppositions	Nov 30, 2022	Open-Domain Question AnsweringQuestion Answering	CodeCode Available	1	5
How do Decisions Emerge across Layers in Neural Models? Interpretation with Differentiable Masking	Apr 30, 2020	PredictionQuestion Answering	CodeCode Available	1	5
Knowledge Infused Decoding	Apr 6, 2022	counterfactualQuestion Answering	CodeCode Available	1	5
ChiQA: A Large Scale Image-based Real-World Question Answering Dataset for Multi-Modal Understanding	Aug 5, 2022	Image RetrievalQuestion Answering	CodeCode Available	1	5
ChroniclingAmericaQA: A Large-scale Question Answering Dataset based on Historical American Newspaper Pages	Mar 26, 2024	Machine Reading ComprehensionOptical Character Recognition (OCR)	CodeCode Available	1	5
CuriousLLM: Elevating Multi-Document QA with Reasoning-Infused Knowledge Graph Prompting	Apr 13, 2024	HallucinationKnowledge Graphs	CodeCode Available	1	5
Debate on Graph: a Flexible and Reliable Reasoning Framework for Large Language Models	Sep 5, 2024	Answer GenerationGraph Question Answering	CodeCode Available	1	5
How Does BERT Answer Questions? A Layer-Wise Analysis of Transformer Representations	Sep 11, 2019	Question Answering	CodeCode Available	1	5
KQA Pro: A Dataset with Explicit Compositional Programs for Complex Question Answering over Knowledge Base	Jul 8, 2020	AttributeDiagnostic	CodeCode Available	1	5
Cross-Modal BERT for Text-Audio Sentiment Analysis	Oct 12, 2020	Multimodal Sentiment AnalysisNatural Language Inference	CodeCode Available	1	5
How Much Can CLIP Benefit Vision-and-Language Tasks?	Jul 13, 2021	Question AnsweringVision and Language Navigation	CodeCode Available	1	5

Show:10 25 50

← PrevPage 27 of 217Next →

All datasets SQuAD2.0 SQuAD1.1 HotpotQA PIQA BoolQ COPA TriviaQA SQuAD1.1 dev Natural Questions OpenBookQA TruthfulQA MultiRC

Benchmark Results

#	Model	Metric	Claimed	Verified	Status
1	IE-Net (ensemble)	EM	90.94	—	Unverified
2	FPNet (ensemble)	EM	90.87	—	Unverified
3	IE-NetV2 (ensemble)	EM	90.86	—	Unverified
4	SA-Net on Albert (ensemble)	EM	90.72	—	Unverified
5	SA-Net-V2 (ensemble)	EM	90.68	—	Unverified
6	FPNet (ensemble)	EM	90.6	—	Unverified
7	Retro-Reader (ensemble)	EM	90.58	—	Unverified
8	EntitySpanFocusV2 (ensemble)	EM	90.52	—	Unverified
9	TransNets + SFVerifier + SFEnsembler (ensemble)	EM	90.49	—	Unverified
10	EntitySpanFocus+AT (ensemble)	EM	90.45	—	Unverified