Question Answering

Question answering can be segmented into domain-specific tasks like community question answering and knowledge-base question answering. Popular benchmark datasets for evaluation question answering systems include SQuAD, HotPotQA, bAbI, TriviaQA, WikiQA, and many others. Models for question answering are typically evaluated on metrics like EM and F1. Some recent top performing models are T5 and XLNet.

( Image credit: SQuAD )

Papers

Recently Added Most Hyped Most Active Needs Verification Most Verified

Showing 4226–4250 of 10817 papers

Title	Date	Tasks	Status
A Simple Yet Strong Pipeline for HotpotQA	Apr 14, 2020	Multi-hop Question Answeringnamed-entity-recognition	—Unverified
A Linguistic Study on Relevance Modeling in Information Retrieval	Mar 1, 2021	Information RetrievalNatural Language Understanding	—Unverified
Abstract Meaning Representation of Constructions: The More We Include, the Better the Representation	May 1, 2018	Abstract Meaning RepresentationMachine Translation	—Unverified
From Chat Logs to Collective Insights: Aggregative Question Answering	May 29, 2025	ChatbotQuestion Answering	—Unverified
Clustering Monolingual Vocabularies to Improve Cross-Lingual Generalization	Nov 1, 2021	ClusteringQuestion Answering	—Unverified
From Beginner to Expert: Modeling Medical Knowledge into General LLMs	Dec 2, 2023	Language ModellingLarge Language Model	—Unverified
FriendsQA: Open-Domain Question Answering on TV Show Transcripts	Sep 1, 2019	Open-Domain Question AnsweringQuestion Answering	—Unverified
Clustering Examples in Multi-Dataset Benchmarks with Item Response Theory	May 1, 2022	ClusteringNatural Language Inference	—Unverified
Frequently Asked Questions Retrieval for Croatian Based on Semantic Textual Similarity	Aug 1, 2013	Question AnsweringRetrieval	—Unverified
Cluster-Former: Clustering-based Sparse Transformer for Question Answering	Jan 1, 2021	ClusteringQuestion Answering	—Unverified
FReM: A Flexible Reasoning Mechanism for Balancing Quick and Slow Thinking in Long-Context Question Answering	Mar 29, 2025	Question Answering	—Unverified
Cluster-Former: Clustering-based Sparse Transformer for Long-Range Dependency Encoding	Sep 13, 2020	ClusteringLanguage Modelling	—Unverified
AliMe MKG: A Multi-modal Knowledge Graph for Live-streaming E-commerce	Sep 13, 2021	Multi-modal Knowledge GraphQuestion Answering	—Unverified
freePruner: A Training-free Approach for Large Multimodal Model Acceleration	Nov 23, 2024	QuantizationQuestion Answering	—Unverified
Free Form Medical Visual Question Answering in Radiology	Jan 23, 2024	DiagnosticForm	—Unverified
A Simple Linear Patch Revives Layer-Pruned Large Language Models	May 30, 2025	Knowledge DistillationQuestion Answering	—Unverified
Freebase QA: Information Extraction or Semantic Parsing?	Jun 1, 2014	Open Information ExtractionQuestion Answering	—Unverified
FRAQUE: a FRAme-based QUEstion-answering system for the Public Administration domain	May 1, 2020	Question AnsweringWord Embeddings	—Unverified
CLTR: An End-to-End, Transformer-Based System for Cell-Level Table Retrieval and Table Question Answering	Aug 1, 2021	Question AnsweringRetrieval	—Unverified
A Simple End-to-End Question Answering Model for Product Information	Jul 1, 2018	Answer SelectionQuestion Answering	—Unverified
AliMe KG: Domain Knowledge Graph Construction and Application in E-commerce	Sep 24, 2020	graph constructionQuestion Answering	—Unverified
Agentic Medical Knowledge Graphs Enhance Medical Question Answering: Bridging the Gap Between LLMs and Evolving Medical Knowledge	Feb 18, 2025	Graph GenerationKnowledge Graphs	—Unverified
Framing QA as Building and Ranking Intersentence Answer Justifications	Jun 1, 2017	Multiple-choiceQuestion Answering	—Unverified
Framework for Weakly Supervised Causal Knowledge Extraction from Text	Jan 16, 2022	ManagementNatural Language Inference	—Unverified
Framework for Question-Answering in Sanskrit through Automated Construction of Knowledge Graphs	Oct 11, 2023	Knowledge GraphsQuestion Answering	—Unverified

Show:10 25 50

← PrevPage 170 of 433Next →

All datasets SQuAD2.0 SQuAD1.1 HotpotQA PIQA BoolQ COPA TriviaQA SQuAD1.1 dev Natural Questions OpenBookQA TruthfulQA MultiRC

Benchmark Results

#	Model	Metric	Claimed	Verified	Status
1	IE-Net (ensemble)	EM	90.94	—	Unverified
2	FPNet (ensemble)	EM	90.87	—	Unverified
3	IE-NetV2 (ensemble)	EM	90.86	—	Unverified
4	SA-Net on Albert (ensemble)	EM	90.72	—	Unverified
5	SA-Net-V2 (ensemble)	EM	90.68	—	Unverified
6	FPNet (ensemble)	EM	90.6	—	Unverified
7	Retro-Reader (ensemble)	EM	90.58	—	Unverified
8	EntitySpanFocusV2 (ensemble)	EM	90.52	—	Unverified
9	TransNets + SFVerifier + SFEnsembler (ensemble)	EM	90.49	—	Unverified
10	EntitySpanFocus+AT (ensemble)	EM	90.45	—	Unverified