Question Answering

Question answering can be segmented into domain-specific tasks like community question answering and knowledge-base question answering. Popular benchmark datasets for evaluation question answering systems include SQuAD, HotPotQA, bAbI, TriviaQA, WikiQA, and many others. Models for question answering are typically evaluated on metrics like EM and F1. Some recent top performing models are T5 and XLNet.

( Image credit: SQuAD )

Papers

Recently Added Most Hyped Most Active Needs Verification Most Verified

Showing 7251–7275 of 10817 papers

Title	Date	Tasks	Status
PaLI: A Jointly-Scaled Multilingual Language-Image Model	Sep 14, 2022	DecoderFew-Shot Image Classification	—Unverified
Confidence Estimation for Knowledge Base Population	Sep 1, 2013	Knowledge Base PopulationMachine Translation	—Unverified
GUITAR: Gradient Pruning toward Fast Neural Ranking	Dec 28, 2023	Question AnsweringRepresentation Learning	—Unverified
PaLM 2 Technical Report	May 17, 2023	Code GenerationCommon Sense Reasoning	—Unverified
PerCQA: Persian Community Question Answering Dataset	Dec 25, 2021	Answer SelectionCommunity Question Answering	—Unverified
Guiding Visual Question Answering with Attention Priors	May 25, 2022	Question AnsweringVisual Grounding	—Unverified
A Study on Efficiency, Accuracy and Document Structure for Answer Sentence Selection	Mar 4, 2020	Question AnsweringSentence	—Unverified
PALM: Pre-training an Autoencoding\&Autoregressive Language Model for Context-conditioned Generation	Nov 1, 2020	Abstractive Text SummarizationConversational Response Generation	—Unverified
Performance Analysis of Traditional VQA Models Under Limited Computational Resources	Feb 9, 2025	Question AnsweringVisual Question Answering	—Unverified
PALRACE: Reading Comprehension Dataset with Human Data and Labeled Rationales	Jun 23, 2021	Machine Reading ComprehensionQuestion Answering	—Unverified
PAM: Understanding Product Images in Cross Product Category Attribute Extraction	Jun 8, 2021	AttributeAttribute Extraction	—Unverified
Guiding the Growth: Difficulty-Controllable Question Generation through Step-by-Step Rewriting	May 25, 2021	Question AnsweringQuestion Generation	—Unverified
Pangloss: Fast Entity Linking in Noisy Text Environments	Jul 16, 2018	ArticlesEntity Disambiguation	—Unverified
A Study of the Importance of External Knowledge in the Named Entity Recognition Task	Jul 1, 2018	named-entity-recognitionNamed Entity Recognition	—Unverified
Pangu DeepDiver: Adaptive Search Intensity Scaling via Open-Web Reinforcement Learning	May 30, 2025	Question AnsweringReinforcement Learning (RL)	—Unverified
PanGu-Σ: Towards Trillion Parameter Language Model with Sparse Heterogeneous Computing	Mar 20, 2023	Code GenerationLanguage Modeling	—Unverified
Perception Test 2023: A Summary of the First Challenge And Outcome	Dec 20, 2023	BenchmarkingGrounded Video Question Answering	—Unverified
Guess What: A Question Answering Game via On-demand Knowledge Validation	Nov 1, 2017	ChatbotQuestion Answering	—Unverified
Amrita\_CEN at SemEval-2016 Task 1: Semantic Relation from Word Embeddings in Higher Dimension	Jun 1, 2016	Information RetrievalMachine Translation	—Unverified
PaperQA: Retrieval-Augmented Generative Agent for Scientific Research	Dec 8, 2023	ArticlesInformation Retrieval	—Unverified
Exploiting Rich Syntax for Better Knowledge Base Question Answering	Jul 16, 2021	Knowledge Base Question AnsweringQuestion Answering	—Unverified
Perception Test 2024: Challenge Summary and a Novel Hour-Long VideoQA Benchmark	Nov 29, 2024	BenchmarkingGrounded Video Question Answering	—Unverified
PAQA: Toward ProActive Open-Retrieval Question Answering	Feb 26, 2024	Conversational SearchPassage Retrieval	—Unverified
ParaDi: Dictionary of Paraphrases of Czech Complex Predicates with Light Verbs	Apr 1, 2017	Information RetrievalMachine Translation	—Unverified
Performance Comparison of Large Language Models on VNHSGE English Dataset: OpenAI ChatGPT, Microsoft Bing Chat, and Google Bard	Jul 5, 2023	Question Answering	—Unverified

Show:10 25 50

← PrevPage 291 of 433Next →

All datasets SQuAD2.0 SQuAD1.1 HotpotQA PIQA BoolQ COPA TriviaQA SQuAD1.1 dev Natural Questions OpenBookQA TruthfulQA MultiRC

Benchmark Results

#	Model	Metric	Claimed	Verified	Status
1	IE-Net (ensemble)	EM	90.94	—	Unverified
2	FPNet (ensemble)	EM	90.87	—	Unverified
3	IE-NetV2 (ensemble)	EM	90.86	—	Unverified
4	SA-Net on Albert (ensemble)	EM	90.72	—	Unverified
5	SA-Net-V2 (ensemble)	EM	90.68	—	Unverified
6	FPNet (ensemble)	EM	90.6	—	Unverified
7	Retro-Reader (ensemble)	EM	90.58	—	Unverified
8	EntitySpanFocusV2 (ensemble)	EM	90.52	—	Unverified
9	TransNets + SFVerifier + SFEnsembler (ensemble)	EM	90.49	—	Unverified
10	EntitySpanFocus+AT (ensemble)	EM	90.45	—	Unverified