Question Answering

Question answering can be segmented into domain-specific tasks like community question answering and knowledge-base question answering. Popular benchmark datasets for evaluation question answering systems include SQuAD, HotPotQA, bAbI, TriviaQA, WikiQA, and many others. Models for question answering are typically evaluated on metrics like EM and F1. Some recent top performing models are T5 and XLNet.

( Image credit: SQuAD )

Papers

Recently Added Most Hyped Most Active Needs Verification Most Verified

Showing 7026–7050 of 10817 papers

Title	Date	Tasks	Status
A Supervised Word Alignment Method based on Cross-Language Span Prediction using Multilingual BERT	Apr 29, 2020	Question AnsweringSentence	—Unverified
Hanfu-Bench: A Multimodal Benchmark on Cross-Temporal Cultural Understanding and Transcreation	Jun 2, 2025	Multiple-choiceQuestion Answering	—Unverified
OMoS-QA: A Dataset for Cross-Lingual Extractive Question Answering in a German Migration Context	Jul 22, 2024	Extractive Question-AnsweringLanguage Modelling	—Unverified
Accelerating Manufacturing Scale-Up from Material Discovery Using Agentic Web Navigation and Retrieval-Augmented AI for Process Engineering Schematics Design	Dec 8, 2024	Knowledge GraphsOpen-Domain Question Answering	—Unverified
On Advances in Text Generation from Images Beyond Captioning: A Case Study in Self-Rationalization	May 24, 2022	DescriptiveImage Captioning	—Unverified
Opinion Holder and Target Extraction on Opinion Compounds â A Linguistic Approach	Jun 1, 2016	Opinion SummarizationQuestion Answering	—Unverified
Evaluation of ChatGPT on Biomedical Tasks: A Zero-Shot Comparison with Fine-Tuned Generative Transformers	Jun 7, 2023	Document ClassificationLanguage Modeling	—Unverified
On-Demand Distributional Semantic Distance and Paraphrasing	Jun 1, 2012	Document SummarizationInformation Retrieval	—Unverified
On-demand Injection of Lexical Knowledge for Recognising Textual Entailment	Apr 1, 2017	Automated Theorem ProvingInformation Retrieval	—Unverified
Handling Multiword Expressions in Causality Estimation	Jan 1, 2017	Common Sense ReasoningQuestion Answering	—Unverified
OneEncoder: A Lightweight Framework for Progressive Alignment of Modalities	Sep 17, 2024	cross-modal alignmentQuestion Answering	—Unverified
Handling Anomalies of Synthetic Questions in Unsupervised Question Answering	Dec 1, 2020	Question Answering	—Unverified
Hand in Glove: Deep Feature Fusion Network Architectures for Answer Quality Prediction in Community Question Answering	Dec 1, 2016	Community Question AnsweringQuestion Answering	—Unverified
HAMMR: HierArchical MultiModal React agents for generic VQA	Apr 8, 2024	Optical Character Recognition (OCR)Question Answering	—Unverified
A Supervised Approach for Enriching the Relational Structure of Frame Semantics in FrameNet	Dec 1, 2016	Coreference ResolutionQuestion Answering	—Unverified
A Multi-answer Multi-task Framework for Real-world Machine Reading Comprehension	Oct 1, 2018	Information RetrievalMachine Reading Comprehension	—Unverified
Evaluation of medium-large Language Models at zero-shot closed book generative question answering	May 19, 2023	Generative Question AnsweringQuestion Answering	—Unverified
Opinion Mining with Deep Recurrent Neural Networks	Oct 1, 2014	Fine-Grained Opinion AnalysisOpinion Mining	—Unverified
OneStop QAMaker: Extract Question-Answer Pairs from Text in a One-Stop Approach	Feb 24, 2021	Machine Reading ComprehensionQuestion Answering	—Unverified
Consistency and Uncertainty: Identifying Unreliable Responses From Black-Box Vision-Language Models for Selective Visual Question Answering	Apr 16, 2024	Language ModellingPrediction	—Unverified
On Evaluating Embedding Models for Knowledge Base Completion	Oct 17, 2018	Knowledge Base CompletionQuestion Answering	—Unverified
On Evaluating the Integration of Reasoning and Action in LLM Agents with Database Question Answering	Nov 16, 2023	Question AnsweringRetrieval	—Unverified
One Vector is Not Enough: Entity-Augmented Distributed Semantics for Discourse Relations	Jan 1, 2015	Question AnsweringRelation	—Unverified
Open-Vocabulary Functional 3D Scene Graphs for Real-World Indoor Spaces	Mar 24, 2025	Question Answering	—Unverified
ConSens: Assessing context grounding in open-book question answering	Apr 30, 2025	Question Answering	—Unverified

Show:10 25 50

← PrevPage 282 of 433Next →

All datasets SQuAD2.0 SQuAD1.1 HotpotQA PIQA BoolQ COPA TriviaQA SQuAD1.1 dev Natural Questions OpenBookQA TruthfulQA MultiRC

Benchmark Results

#	Model	Metric	Claimed	Verified	Status
1	IE-Net (ensemble)	EM	90.94	—	Unverified
2	FPNet (ensemble)	EM	90.87	—	Unverified
3	IE-NetV2 (ensemble)	EM	90.86	—	Unverified
4	SA-Net on Albert (ensemble)	EM	90.72	—	Unverified
5	SA-Net-V2 (ensemble)	EM	90.68	—	Unverified
6	FPNet (ensemble)	EM	90.6	—	Unverified
7	Retro-Reader (ensemble)	EM	90.58	—	Unverified
8	EntitySpanFocusV2 (ensemble)	EM	90.52	—	Unverified
9	TransNets + SFVerifier + SFEnsembler (ensemble)	EM	90.49	—	Unverified
10	EntitySpanFocus+AT (ensemble)	EM	90.45	—	Unverified