Question Answering

Question answering can be segmented into domain-specific tasks like community question answering and knowledge-base question answering. Popular benchmark datasets for evaluation question answering systems include SQuAD, HotPotQA, bAbI, TriviaQA, WikiQA, and many others. Models for question answering are typically evaluated on metrics like EM and F1. Some recent top performing models are T5 and XLNet.

( Image credit: SQuAD )

Papers

Recently Added Most Hyped Most Active Needs Verification Most Verified

Showing 2101–2150 of 10817 papers

Title	Date	Tasks	Status	Hype	Score
Cooperative Self-training of Machine Reading Comprehension	Mar 12, 2021	Extractive Question-AnsweringMachine Reading Comprehension	CodeCode Available	1	5
CommonsenseQA: A Question Answering Challenge Targeting Commonsense Knowledge	Nov 2, 2018	Common Sense ReasoningMultiple-choice	CodeCode Available	1	5
Constructing Benchmarks and Interventions for Combating Hallucinations in LLMs	Apr 15, 2024	HallucinationLanguage Modeling	CodeCode Available	1	5
A Long Way to Go: Investigating Length Correlations in RLHF	Oct 5, 2023	Question Answering	CodeCode Available	1	5
CorefQA: Coreference Resolution as Query-based Span Prediction	Jul 1, 2020	coreference-resolutionCoreference Resolution	CodeCode Available	1	5
CoRel: Seed-Guided Topical Taxonomy Construction by Concept Learning and Relation Transferring	Oct 13, 2020	Question AnsweringRelation	CodeCode Available	1	5
COSA: Concatenated Sample Pretrained Vision-Language Foundation Model	Jun 15, 2023	Formmodel	CodeCode Available	1	5
Match-Ignition: Plugging PageRank into Transformer for Long-form Text Matching	Jan 16, 2021	Community Question AnsweringForm	CodeCode Available	1	5
Context-Aware Alignment and Mutual Masking for 3D-Language Pre-Training	Jan 1, 2023	3D dense captioning3D visual grounding	CodeCode Available	1	5
CompAct: Compressing Retrieved Documents Actively for Question Answering	Jul 12, 2024	Multi-hop Question AnsweringQuestion Answering	CodeCode Available	1	5
Look, Listen, and Answer: Overcoming Biases for Audio-Visual Question Answering	Apr 18, 2024	Audio-visual Question AnsweringAudio-Visual Question Answering (AVQA)	CodeCode Available	1	5
CoLoR-Filter: Conditional Loss Reduction Filtering for Targeted Language Model Pre-training	Jun 15, 2024	Domain AdaptationLanguage Modeling	CodeCode Available	1	5
LongT5: Efficient Text-To-Text Transformer for Long Sequences	Dec 15, 2021	Abstractive Text SummarizationLong-range modeling	CodeCode Available	1	5
Consistency-preserving Visual Question Answering in Medical Imaging	Jun 27, 2022	Question AnsweringVisual Question Answering	CodeCode Available	1	5
Counterfactual VQA: A Cause-Effect Look at Language Bias	Jun 8, 2020	Causal Inferencecounterfactual	CodeCode Available	1	5
Counterfactual Variable Control for Robust and Interpretable Question Answering	Oct 12, 2020	Causal Inferencecounterfactual	CodeCode Available	1	5
Measuring Association Between Labels and Free-Text Rationales	Oct 24, 2020	Decision MakingFeature Importance	CodeCode Available	1	5
Measuring Conversational Uptake: A Case Study on Student-Teacher Interactions	Jun 7, 2021	MathQuestion Answering	CodeCode Available	1	5
COVID-Twitter-BERT: A Natural Language Processing Model to Analyse COVID-19 Content on Twitter	May 15, 2020	ClassificationGeneral Classification	CodeCode Available	1	5
Ask to Know More: Generating Counterfactual Explanations for Fake Claims	Jun 10, 2022	Articlescounterfactual	CodeCode Available	1	5
Consistency Regularization for Cross-Lingual Fine-Tuning	Jun 15, 2021	Machine TranslationQuestion Answering	CodeCode Available	1	5
COVID-19 event extraction from Twitter via extractive question answering with continuous prompts	Mar 19, 2023	BenchmarkingEvent Extraction	CodeCode Available	1	5
Collab-RAG: Boosting Retrieval-Augmented Generation for Complex Question Answering via White-Box and Black-Box LLM Collaboration	Apr 7, 2025	Language ModelingLanguage Modelling	CodeCode Available	1	5
CRAFT Your Dataset: Task-Specific Synthetic Dataset Generation Through Corpus Retrieval and Augmentation	Sep 3, 2024	Dataset GenerationQuestion Answering	CodeCode Available	1	5
Connecting Vision and Language with Video Localized Narratives	Feb 22, 2023	Question AnsweringVideo Narrative Grounding	CodeCode Available	1	5
Fine-tuned LLMs Know More, Hallucinate Less with Few-Shot Sequence-to-Sequence Semantic Parsing over Wikidata	May 23, 2023	Knowledge Base Question AnsweringKnowledge Graphs	CodeCode Available	1	5
AmbigQA: Answering Ambiguous Open-domain Questions	Apr 22, 2020	Open-Domain Question AnsweringQuestion Answering	CodeCode Available	1	5
Visually-Situated Natural Language Understanding with Contrastive Reading Model and Frozen Large Language Models	May 24, 2023	document understandingImage Captioning	CodeCode Available	1	5
Complex Knowledge Base Question Answering: A Survey	Aug 15, 2021	Information RetrievalKnowledge Base Question Answering	CodeCode Available	1	5
Constructing A Multi-hop QA Dataset for Comprehensive Evaluation of Reasoning Steps	Nov 2, 2020	Multi-hop Question AnsweringQuestion Answering	CodeCode Available	1	5
A Memory Efficient Baseline for Open Domain Question Answering	Dec 30, 2020	Dimensionality ReductionOpen-Domain Question Answering	CodeCode Available	1	5
Cross-document Event Coreference Search: Task, Dataset and Modeling	Oct 23, 2022	Coreference ResolutionCross Document Coreference Resolution	CodeCode Available	1	5
A Long Short-Term Memory for AI Applications in Spike-based Neuromorphic Hardware	Jul 8, 2021	Question AnsweringTime Series	CodeCode Available	1	5
Complex Reasoning over Logical Queries on Commonsense Knowledge Graphs	Mar 12, 2024	Knowledge GraphsMultiple-choice	CodeCode Available	1	5
LooGLE: Can Long-Context Language Models Understand Long Contexts?	Nov 8, 2023	In-Context LearningLong-Context Understanding	CodeCode Available	1	5
Complex Temporal Question Answering on Knowledge Graphs	Sep 18, 2021	16kEntity Embeddings	CodeCode Available	1	5
ComplexTempQA: A Large-Scale Dataset for Complex Temporal Question Answering	Jun 7, 2024	Information RetrievalQuestion Answering	CodeCode Available	1	5
A Dataset for Medical Instructional Video Classification and Question Answering	Jan 30, 2022	ClassificationQuestion Answering	CodeCode Available	1	5
Efficient Temporal Extrapolation of Multimodal Large Language Models with Temporal Grounding Bridge	Feb 25, 2024	Computational EfficiencyLanguage Modelling	CodeCode Available	1	5
LongDocURL: a Comprehensive Multimodal Long Document Benchmark Integrating Understanding, Reasoning, and Locating	Dec 24, 2024	document understandingQuestion Answering	CodeCode Available	1	5
Conformal Alignment: Knowing When to Trust Foundation Models with Guarantees	May 16, 2024	Decision MakingInformativeness	CodeCode Available	1	5
MedMax: Mixed-Modal Instruction Tuning for Training Biomedical Assistants	Dec 17, 2024	Image CaptioningQuestion Answering	CodeCode Available	1	5
Conformal Language Modeling	Jun 16, 2023	Conformal PredictionLanguage Modeling	CodeCode Available	1	5
mmRAG: A Modular Benchmark for Retrieval-Augmented Generation over Text, Tables, and Knowledge Graphs	May 16, 2025	Information RetrievalKnowledge Graphs	CodeCode Available	1	5
Cross-modal Information Flow in Multimodal Large Language Models	Nov 27, 2024	Question AnsweringVisual Question Answering	CodeCode Available	1	5
Cross-Modality Relevance for Reasoning on Language and Vision	May 12, 2020	Question AnsweringVisual Question Answering	CodeCode Available	1	5
A Step Closer to Comprehensive Answers: Constrained Multi-Stage Question Decomposition with Large Language Models	Nov 13, 2023	Question Answering	CodeCode Available	1	5
Compositional Exemplars for In-context Learning	Feb 11, 2023	Code GenerationContrastive Learning	CodeCode Available	1	5
ConditionalQA: A Complex Reading Comprehension Dataset with Conditional Answers	Oct 13, 2021	Logical ReasoningQuestion Answering	CodeCode Available	1	5
Long Context vs. RAG for LLMs: An Evaluation and Revisits	Dec 27, 2024	Question AnsweringRAG	CodeCode Available	1	5

Show:10 25 50

← PrevPage 43 of 217Next →

All datasets SQuAD2.0 SQuAD1.1 HotpotQA PIQA BoolQ COPA TriviaQA SQuAD1.1 dev Natural Questions OpenBookQA TruthfulQA MultiRC

Benchmark Results

#	Model	Metric	Claimed	Verified	Status
1	IE-Net (ensemble)	EM	90.94	—	Unverified
2	FPNet (ensemble)	EM	90.87	—	Unverified
3	IE-NetV2 (ensemble)	EM	90.86	—	Unverified
4	SA-Net on Albert (ensemble)	EM	90.72	—	Unverified
5	SA-Net-V2 (ensemble)	EM	90.68	—	Unverified
6	FPNet (ensemble)	EM	90.6	—	Unverified
7	Retro-Reader (ensemble)	EM	90.58	—	Unverified
8	EntitySpanFocusV2 (ensemble)	EM	90.52	—	Unverified
9	TransNets + SFVerifier + SFEnsembler (ensemble)	EM	90.49	—	Unverified
10	EntitySpanFocus+AT (ensemble)	EM	90.45	—	Unverified