Question Answering

Question answering can be segmented into domain-specific tasks like community question answering and knowledge-base question answering. Popular benchmark datasets for evaluation question answering systems include SQuAD, HotPotQA, bAbI, TriviaQA, WikiQA, and many others. Models for question answering are typically evaluated on metrics like EM and F1. Some recent top performing models are T5 and XLNet.

( Image credit: SQuAD )

Papers

Recently Added Most Hyped Most Active Needs Verification Most Verified

Showing 7651–7675 of 10817 papers

Title	Date	Tasks	Status
Provoking Multi-modal Few-Shot LVLM via Exploration-Exploitation In-Context Learning	Jun 11, 2025	In-Context LearningQuestion Answering	—Unverified
Feature-Rich Twitter Named Entity Recognition and Classification	Dec 1, 2016	ClassificationEntity Extraction using GAN	—Unverified
Graph Guided Question Answer Generation for Procedural Question-Answering	Jan 24, 2024	Answer GenerationQuestion-Answer-Generation	—Unverified
Prune Once for All: Sparse Pre-Trained Language Models	Nov 10, 2021	AllNatural Language Inference	—Unverified
Compositional pre-training for neural semantic parsing	May 27, 2019	Data AugmentationInstruction Following	—Unverified
Structured Pruning of a BERT-based Question Answering Model	Oct 14, 2019	Model CompressionNatural Questions	—Unverified
Pseudo Ambiguous and Clarifying Questions Based on Sentence Structures Toward Clarifying Question Answering System	May 1, 2022	Question AnsweringQuestion Generation	—Unverified
PSLM: Parallel Generation of Text and Speech with LLMs for Low-Latency Spoken Dialogue Systems	Jun 18, 2024	Language ModelingLanguage Modelling	—Unverified
Compositional Memory for Visual Question Answering	Nov 18, 2015	Question AnsweringVisual Question Answering	—Unverified
Psycholinguistics meets Continual Learning: Measuring Catastrophic Forgetting in Visual Question Answering	Jun 10, 2019	Continual LearningQuestion Answering	—Unverified
Psy-LLM: Scaling up Global Mental Health Psychological Services with AI-based Large Language Models	Jul 22, 2023	ArticlesQuestion Answering	—Unverified
Federated Retrieval Augmented Generation for Multi-Product Question Answering	Jan 25, 2025	Question AnsweringRAG	—Unverified
AsthmaBot: Multi-modal, Multi-Lingual Retrieval Augmented Generation For Asthma Patient Support	Sep 24, 2024	HallucinationQuestion Answering	—Unverified
A Dataset for Research on Short-Text Conversations	Oct 1, 2013	ChatbotQuestion Answering	—Unverified
PUMGPT: A Large Vision-Language Model for Product Understanding	Aug 18, 2023	AttributeAttribute Extraction	—Unverified
Punctuation Prediction with Transition-based Parsing	Aug 1, 2013	Dependency ParsingLanguage Modelling	—Unverified
PurdueNLP at SemEval-2017 Task 1: Predicting Semantic Textual Similarity with Paraphrase and Event Embeddings	Aug 1, 2017	Question Answeringregression	—Unverified
Pushing the boundary on Natural Language Inference	Apr 25, 2025	Fact CheckingInformation Retrieval	—Unverified
Pushing the Limits of AMR Parsing with Self-Learning	Oct 20, 2020	Abstract Meaning RepresentationAMR Parsing	—Unverified
Pushing the Limits of ChatGPT on NLP Tasks	Jun 16, 2023	Dependency ParsingEvent Extraction	—Unverified
GraphEQA: Using 3D Semantic Scene Graphs for Real-time Embodied Question Answering	Dec 19, 2024	Efficient ExplorationEmbodied Question Answering	—Unverified
Pushing the Limits of Radiology with Joint Modeling of Visual and Textual Information	Jul 1, 2018	Image ClassificationMachine Translation	—Unverified
Argument-Based Comparative Question Answering Evaluation Benchmark	Feb 20, 2025	Question Answering	—Unverified
Systems' Agreements and Disagreements in Temporal Processing: An Extensive Error Analysis of the TempEval-3 Task	May 1, 2018	Natural Language InferenceQuestion Answering	—Unverified
Graph Collaborative Reasoning	Dec 27, 2021	Link PredictionLogical Reasoning	—Unverified

Show:10 25 50

← PrevPage 307 of 433Next →

All datasets SQuAD2.0 SQuAD1.1 HotpotQA PIQA BoolQ COPA TriviaQA SQuAD1.1 dev Natural Questions OpenBookQA TruthfulQA MultiRC

Benchmark Results

#	Model	Metric	Claimed	Verified	Status
1	IE-Net (ensemble)	EM	90.94	—	Unverified
2	FPNet (ensemble)	EM	90.87	—	Unverified
3	IE-NetV2 (ensemble)	EM	90.86	—	Unverified
4	SA-Net on Albert (ensemble)	EM	90.72	—	Unverified
5	SA-Net-V2 (ensemble)	EM	90.68	—	Unverified
6	FPNet (ensemble)	EM	90.6	—	Unverified
7	Retro-Reader (ensemble)	EM	90.58	—	Unverified
8	EntitySpanFocusV2 (ensemble)	EM	90.52	—	Unverified
9	TransNets + SFVerifier + SFEnsembler (ensemble)	EM	90.49	—	Unverified
10	EntitySpanFocus+AT (ensemble)	EM	90.45	—	Unverified