Question Answering

Question answering can be segmented into domain-specific tasks like community question answering and knowledge-base question answering. Popular benchmark datasets for evaluation question answering systems include SQuAD, HotPotQA, bAbI, TriviaQA, WikiQA, and many others. Models for question answering are typically evaluated on metrics like EM and F1. Some recent top performing models are T5 and XLNet.

( Image credit: SQuAD )

Papers

Recently Added Most Hyped Most Active Needs Verification Most Verified

Showing 2501–2525 of 10817 papers

Title	Date	Tasks	Status
Do Vision-Language Transformers Exhibit Visual Commonsense? An Empirical Study of VCR	May 27, 2024	Question AnsweringTAG	—Unverified
Character Matters: Video Story Understanding with Character-Aware Relations	May 9, 2020	Question Answering	—Unverified
ARES: A Reading Comprehension Ensembling Service	Oct 1, 2020	Machine Reading ComprehensionNatural Questions	—Unverified
Al-Bayan: An Arabic Question Answering System for the Holy Quran	Oct 1, 2014	Morphological AnalysisQuestion Answering	—Unverified
Characterizing Video Question Answering with Sparsified Inputs	Nov 27, 2023	Question AnsweringVideo Question Answering	—Unverified
Are Sample-Efficient NLP Models More Robust?	Oct 12, 2022	Extractive Question-Answeringimage-classification	—Unverified
Adaptations of ROUGE and BLEU to Better Evaluate Machine Reading Comprehension Task	Jun 10, 2018	Machine Reading ComprehensionQuestion Answering	—Unverified
On the Need of Cross Validation for Discourse Relation Classification	Apr 1, 2017	ClassificationGeneral Classification	—Unverified
Al-Bayan: A Knowledge-based System for Arabic Answer Selection	Jun 1, 2015	Answer SelectionCommunity Question Answering	—Unverified
Characterizing Misclassifications of Deep NLP Models	Mar 12, 2021	named-entity-recognitionNamed Entity Recognition	—Unverified
ALAS: Measuring Latent Speech-Text Alignment For Spoken Language Understanding In Multimodal LLMs	May 26, 2025	cross-modal alignmentEmotion Recognition	—Unverified
Characterizing Interactions and Relationships between People	Oct 1, 2018	Question Answering	—Unverified
Characterizing Datasets for Social Visual Question Answering, and the New TinySocial Dataset	Oct 8, 2020	Question AnsweringVisual Question Answering	—Unverified
A Reranking Model for Discourse Segmentation using Subtree Features	Jul 1, 2012	ChunkingDialogue Generation	—Unverified
Double Topic Shifts in Open Domain Conversations: Natural Language Interface for a Wikipedia-based Robot Application	Dec 1, 2016	ArticlesChatbot	—Unverified
Are Multilingual Models the Best Choice for Moderately Under-resourced Languages? A Comprehensive Assessment for Catalan	Jul 16, 2021	Language ModelingLanguage Modelling	—Unverified
Do Transformers Dream of Inference, or Can Pretrained Generative Models Learn Implicit Inferential Rules?	Nov 1, 2020	Multi-hop Question AnsweringQuestion Answering	—Unverified
Character based String Kernels for Bio-Entity Relation Detection	Aug 1, 2016	Decision MakingQuestion Answering	—Unverified
Double Retrieval and Ranking for Accurate Question Answering	Jan 16, 2022	Answer SelectionQuestion Answering	—Unverified
Double Visual Defense: Adversarial Pre-training and Instruction Tuning for Improving Vision-Language Model Robustness	Jan 16, 2025	Adversarial DefenseAdversarial Robustness	—Unverified
Do We Need to Differentiate Negative Candidates Before Training a Neural Ranker?	Nov 16, 2021	Data AugmentationQuestion Answering	—Unverified
DP-KB: Data Programming with Knowledge Bases Improves Transformer Fine Tuning for Answer Sentence Selection	Mar 17, 2022	Entity LinkingFact Verification	—Unverified
DR-RAG: Applying Dynamic Document Relevance to Retrieval-Augmented Generation for Question-Answering	Jun 11, 2024	Question AnsweringRAG	—Unverified
Character-Aware Neural Networks for Arabic Named Entity Recognition for Social Media	Dec 1, 2016	Feature EngineeringInformation Retrieval	—Unverified
Changing Answer Order Can Decrease MMLU Accuracy	Jun 27, 2024	MMLUMultiple-choice	—Unverified

Show:10 25 50

← PrevPage 101 of 433Next →

All datasets SQuAD2.0 SQuAD1.1 HotpotQA PIQA BoolQ COPA TriviaQA SQuAD1.1 dev Natural Questions OpenBookQA TruthfulQA MultiRC

Benchmark Results

#	Model	Metric	Claimed	Verified	Status
1	IE-Net (ensemble)	EM	90.94	—	Unverified
2	FPNet (ensemble)	EM	90.87	—	Unverified
3	IE-NetV2 (ensemble)	EM	90.86	—	Unverified
4	SA-Net on Albert (ensemble)	EM	90.72	—	Unverified
5	SA-Net-V2 (ensemble)	EM	90.68	—	Unverified
6	FPNet (ensemble)	EM	90.6	—	Unverified
7	Retro-Reader (ensemble)	EM	90.58	—	Unverified
8	EntitySpanFocusV2 (ensemble)	EM	90.52	—	Unverified
9	TransNets + SFVerifier + SFEnsembler (ensemble)	EM	90.49	—	Unverified
10	EntitySpanFocus+AT (ensemble)	EM	90.45	—	Unverified