Question Answering

Question answering can be segmented into domain-specific tasks like community question answering and knowledge-base question answering. Popular benchmark datasets for evaluation question answering systems include SQuAD, HotPotQA, bAbI, TriviaQA, WikiQA, and many others. Models for question answering are typically evaluated on metrics like EM and F1. Some recent top performing models are T5 and XLNet.

( Image credit: SQuAD )

Papers

Recently Added Most Hyped Most Active Needs Verification Most Verified

Showing 1451–1500 of 10817 papers

Title	Date	Tasks	Status	Hype
DisentQA: Disentangling Parametric and Contextual Knowledge with Counterfactual Question Answering	Nov 10, 2022	counterfactualData Augmentation	CodeCode Available	1
Knowledge Infused Decoding	Apr 6, 2022	counterfactualQuestion Answering	CodeCode Available	1
DistilBERT, a distilled version of BERT: smaller, faster, cheaper and lighter	Oct 2, 2019	Hate Speech DetectionKnowledge Distillation	CodeCode Available	1
DocNLI: A Large-scale Dataset for Document-level Natural Language Inference	Jun 17, 2021	Natural Language InferenceQuestion Answering	CodeCode Available	1
Why So Gullible? Enhancing the Robustness of Retrieval-Augmented Models against Counterfactual Noise	May 2, 2023	counterfactualFew-Shot Learning	CodeCode Available	1
BioProBench: Comprehensive Dataset and Benchmark in Biological Protocol Understanding and Reasoning	May 11, 2025	Question Answering	CodeCode Available	1
Direct Evaluation of Chain-of-Thought in Multi-hop Reasoning with Knowledge Graphs	Feb 17, 2024	Knowledge GraphsMulti-hop Question Answering	CodeCode Available	1
Discourse Analysis via Questions and Answers: Parsing Dependency Structures of Questions Under Discussion	Oct 12, 2022	Dependency ParsingQuestion Answering	CodeCode Available	1
L3Cube-IndicQuest: A Benchmark Question Answering Dataset for Evaluating Knowledge of LLMs in Indic Context	Sep 13, 2024	Question Answering	CodeCode Available	1
Beyond End-to-End VLMs: Leveraging Intermediate Text Representations for Superior Flowchart Understanding	Dec 21, 2024	AttributeQuestion Answering	CodeCode Available	1
Did Aristotle Use a Laptop? A Question Answering Benchmark with Implicit Reasoning Strategies	Jan 6, 2021	Question AnsweringStrategyQA	CodeCode Available	1
Beyond Factuality: A Comprehensive Evaluation of Large Language Models as Knowledge Generators	Oct 11, 2023	Information RetrievalInformativeness	CodeCode Available	1
An Empirical Study of Pre-trained Transformers for Arabic Information Extraction	Apr 30, 2020	Cross-Lingual TransferLanguage Modelling	CodeCode Available	1
Language Guided Visual Question Answering: Elevate Your Multimodal Language Model Using Knowledge-Enriched Prompts	Oct 31, 2023	Image CaptioningLanguage Modeling	CodeCode Available	1
Differentiable Reasoning on Large Knowledge Bases and Natural Language	Dec 17, 2019	Link PredictionQuestion Answering	CodeCode Available	1
Birdie: Advancing State Space Models with Reward-Driven Objectives and Curricula	Nov 1, 2024	Computational EfficiencyQuestion Answering	CodeCode Available	1
Language Models as Science Tutors	Feb 16, 2024	GSM8KMath	CodeCode Available	1
Beyond Memorization: The Challenge of Random Memory Access in Language Models	Mar 12, 2024	MemorizationOpen-Domain Question Answering	CodeCode Available	1
Beyond One-Preference-Fits-All Alignment: Multi-Objective Direct Preference Optimization	Oct 5, 2023	AllLanguage Modeling	CodeCode Available	1
Language Models with Image Descriptors are Strong Few-Shot Video-Language Learners	May 22, 2022	AttributeAutomatic Speech Recognition	CodeCode Available	1
ByT5: Towards a token-free future with pre-trained byte-to-byte models	May 28, 2021	Cross-Lingual Natural Language InferenceCross-Lingual NER	CodeCode Available	1
CABINET: Content Relevance based Noise Reduction for Table Question Answering	Feb 2, 2024	In-Context LearningQuestion Answering	CodeCode Available	1
Beyond Question-Based Biases: Assessing Multimodal Shortcut Learning in Visual Question Answering	Apr 7, 2021	Question AnsweringVisual Question Answering	CodeCode Available	1
Large Language Models are Temporal and Causal Reasoners for Video Question Answering	Oct 24, 2023	Natural Language UnderstandingQuestion Answering	CodeCode Available	1
DialSim: A Real-Time Simulator for Evaluating Long-Term Multi-Party Dialogue Understanding of Conversational Agents	Jun 19, 2024	Dialogue UnderstandingQuestion Answering	CodeCode Available	1
Dynamically Fused Graph Network for Multi-hop Reasoning	May 16, 2019	Question Answering	CodeCode Available	1
emrQA: A Large Corpus for Question Answering on Electronic Medical Records	Sep 3, 2018	FormQuestion Answering	CodeCode Available	1
Few-shot In-context Learning for Knowledge Base Question Answering	May 2, 2023	In-Context LearningKnowledge Base Question Answering	CodeCode Available	1
A Systematic Study and Comprehensive Evaluation of ChatGPT on Benchmark Datasets	May 29, 2023	Bias DetectionCode Generation	CodeCode Available	1
Large language model validity via enhanced conformal prediction methods	Jun 14, 2024	Conformal PredictionLanguage Modeling	CodeCode Available	1
BiomedCLIP: a multimodal biomedical foundation model pretrained from fifteen million scientific image-text pairs	Mar 2, 2023	ArticlesMedical Visual Question Answering	CodeCode Available	1
Large Scale Multimodal Classification Using an Ensemble of Transformer Models and Co-Attention	Nov 23, 2020	ClassificationGeneral Classification	CodeCode Available	1
LaTr: Layout-Aware Transformer for Scene-Text VQA	Dec 23, 2021	Optical Character Recognition (OCR)Question Answering	CodeCode Available	1
Lattice CNNs for Matching Based Chinese Question Answering	Feb 25, 2019	DiversityQuestion Answering	CodeCode Available	1
Lawformer: A Pre-trained Language Model for Chinese Legal Long Documents	May 9, 2021	Language ModelingLanguage Modelling	CodeCode Available	1
Layout and Task Aware Instruction Prompt for Zero-shot Document Image Question Answering	Jun 1, 2023	Optical Character Recognition (OCR)Question Answering	CodeCode Available	1
Detecting and Preventing Hallucinations in Large Vision Language Models	Aug 11, 2023	16kHallucination	CodeCode Available	1
Learning Contextualized Knowledge Structures for Commonsense Reasoning	Oct 24, 2020	Knowledge GraphsNatural Language Inference	CodeCode Available	1
Bias-Augmented Consistency Training Reduces Biased Reasoning in Chain-of-Thought	Mar 8, 2024	Language ModelingLanguage Modelling	CodeCode Available	1
Learning Dialogue Representations from Consecutive Utterances	May 26, 2022	Contrastive LearningConversational Question Answering	CodeCode Available	1
Learning From Failure: Integrating Negative Examples when Fine-tuning Large Language Models as Agents	Feb 18, 2024	Mathematical ReasoningMulti-hop Question Answering	CodeCode Available	1
Learning Neural Models for Natural Language Processing in the Face of Distributional Shift	Sep 3, 2021	Machine TranslationQuestion Answering	CodeCode Available	1
Designing a Minimal Retrieve-and-Read System for Open-Domain Question Answering	Apr 15, 2021	Open-Domain Question AnsweringQuestion Answering	CodeCode Available	1
Bidirectional Attentive Memory Networks for Question Answering over Knowledge Bases	Mar 6, 2019	Information RetrievalKnowledge Base Question Answering	CodeCode Available	1
CodeQueries: A Dataset of Semantic Queries over Code	Sep 17, 2022	AttributeExtractive Question-Answering	CodeCode Available	1
Learning to Answer Visual Questions from Web Videos	May 10, 2022	Dataset GenerationQuestion Answering	CodeCode Available	1
Big Bird: Transformers for Longer Sequences	Jul 28, 2020	Linguistic AcceptabilityNatural Language Inference	CodeCode Available	1
Learning to Attribute with Attention	Apr 18, 2025	AttributeLanguage Modeling	CodeCode Available	1
A Symmetric Dual Encoding Dense Retrieval Framework for Knowledge-Intensive Visual Question Answering	Apr 26, 2023	DecoderKnowledge Distillation	CodeCode Available	1
Detecting Hate Speech in Multi-modal Memes	Dec 29, 2020	Binary ClassificationHate Speech Detection	CodeCode Available	1

Show:10 25 50

← PrevPage 30 of 217Next →

All datasets SQuAD2.0 SQuAD1.1 HotpotQA PIQA BoolQ COPA TriviaQA SQuAD1.1 dev Natural Questions OpenBookQA TruthfulQA MultiRC

Benchmark Results

#	Model	Metric	Claimed	Verified	Status
1	IE-Net (ensemble)	EM	90.94	—	Unverified
2	FPNet (ensemble)	EM	90.87	—	Unverified
3	IE-NetV2 (ensemble)	EM	90.86	—	Unverified
4	SA-Net on Albert (ensemble)	EM	90.72	—	Unverified
5	SA-Net-V2 (ensemble)	EM	90.68	—	Unverified
6	FPNet (ensemble)	EM	90.6	—	Unverified
7	Retro-Reader (ensemble)	EM	90.58	—	Unverified
8	EntitySpanFocusV2 (ensemble)	EM	90.52	—	Unverified
9	TransNets + SFVerifier + SFEnsembler (ensemble)	EM	90.49	—	Unverified
10	EntitySpanFocus+AT (ensemble)	EM	90.45	—	Unverified