Question Answering

Question answering can be segmented into domain-specific tasks like community question answering and knowledge-base question answering. Popular benchmark datasets for evaluation question answering systems include SQuAD, HotPotQA, bAbI, TriviaQA, WikiQA, and many others. Models for question answering are typically evaluated on metrics like EM and F1. Some recent top performing models are T5 and XLNet.

( Image credit: SQuAD )

Papers

Recently Added Most Hyped Most Active Needs Verification Most Verified

Showing 7651–7675 of 10817 papers

Title	Date	Tasks	Status
Provoking Multi-modal Few-Shot LVLM via Exploration-Exploitation In-Context Learning	Jun 11, 2025	In-Context LearningQuestion Answering	—Unverified
It's High Time: A Survey of Temporal Information Retrieval and Question Answering	May 26, 2025	ArticlesInformation Retrieval	—Unverified
It's About Time: Incorporating Temporality in Retrieval Augmented Language Models	Jan 24, 2024	Few-Shot LearningHallucination	—Unverified
Prune Once for All: Sparse Pre-Trained Language Models	Nov 10, 2021	AllNatural Language Inference	—Unverified
ITNLP-AiKF at SemEval-2016 Task 3 a quesiton answering system using community QA repository	Jun 1, 2016	Answer SelectionCommunity Question Answering	—Unverified
DAHRS: Divergence-Aware Hallucination-Remediated SRL Projection	Jul 12, 2024	fr-enHallucination	—Unverified
Automatically Developing a Fine-grained Arabic Named Entity Corpus and Gazetteer by utilizing Wikipedia	Oct 1, 2013	Question AnsweringTransliteration	—Unverified
PSLM: Parallel Generation of Text and Speech with LLMs for Low-Latency Spoken Dialogue Systems	Jun 18, 2024	Language ModelingLanguage Modelling	—Unverified
It is AI’s Turn to Ask Humans a Question: Question-Answer Pair Generation for Children’s Story Books	May 1, 2022	Answer GenerationQuestion-Answer-Generation	—Unverified
It is AI’s Turn to Ask Human a Question: Question and Answer Pair Generation for Children Storybooks in FairytaleQA Dataset	Nov 16, 2021	Answer GenerationQuestion-Answer-Generation	—Unverified
Psy-LLM: Scaling up Global Mental Health Psychological Services with AI-based Large Language Models	Jul 22, 2023	ArticlesQuestion Answering	—Unverified
DAFE: LLM-Based Evaluation Through Dynamic Arbitration for Free-Form Question-Answering	Mar 11, 2025	FormInstruction Following	—Unverified
ITFormer: Bridging Time Series and Natural Language for Multi-Modal QA with Large-Scale Multitask Dataset	Jun 25, 2025	Computational EfficiencyQuestion Answering	—Unverified
DADgraph: A Discourse-aware Dialogue Graph Neural Network for Multiparty Dialogue Machine Reading Comprehension	Apr 26, 2021	Graph Neural NetworkMachine Reading Comprehension	—Unverified
Automated Utterance Generation	Apr 7, 2020	Extractive SummarizationQuestion Answering	—Unverified
Punctuation Prediction with Transition-based Parsing	Aug 1, 2013	Dependency ParsingLanguage Modelling	—Unverified
An Effective Multi-Stage Approach For Question Answering	Jul 10, 2019	Machine Reading ComprehensionNatural Language Understanding	—Unverified
Pushing the boundary on Natural Language Inference	Apr 25, 2025	Fact CheckingInformation Retrieval	—Unverified
Pushing the Limits of AMR Parsing with Self-Learning	Oct 20, 2020	Abstract Meaning RepresentationAMR Parsing	—Unverified
Pushing the Limits of ChatGPT on NLP Tasks	Jun 16, 2023	Dependency ParsingEvent Extraction	—Unverified
Advancements and Challenges in Bangla Question Answering Models: A Comprehensive Review	Dec 16, 2024	ArticlesQuestion Answering	—Unverified
Pushing the Limits of Radiology with Joint Modeling of Visual and Textual Information	Jul 1, 2018	Image ClassificationMachine Translation	—Unverified
Iterative Utility Judgment Framework via LLMs Inspired by Relevance in Philosophy	Jun 17, 2024	Answer GenerationInformation Retrieval	—Unverified
Iterative Scene Graph Generation with Generative Transformers	Nov 30, 2022	Graph GenerationLink Prediction	—Unverified
Iterative Multi-document Neural Attention for Multiple Answer Prediction	Feb 8, 2017	PredictionQuestion Answering	—Unverified

Show:10 25 50

← PrevPage 307 of 433Next →

All datasets SQuAD2.0 SQuAD1.1 HotpotQA PIQA BoolQ COPA TriviaQA SQuAD1.1 dev Natural Questions OpenBookQA TruthfulQA MultiRC

Benchmark Results

#	Model	Metric	Claimed	Verified	Status
1	IE-Net (ensemble)	EM	90.94	—	Unverified
2	FPNet (ensemble)	EM	90.87	—	Unverified
3	IE-NetV2 (ensemble)	EM	90.86	—	Unverified
4	SA-Net on Albert (ensemble)	EM	90.72	—	Unverified
5	SA-Net-V2 (ensemble)	EM	90.68	—	Unverified
6	FPNet (ensemble)	EM	90.6	—	Unverified
7	Retro-Reader (ensemble)	EM	90.58	—	Unverified
8	EntitySpanFocusV2 (ensemble)	EM	90.52	—	Unverified
9	TransNets + SFVerifier + SFEnsembler (ensemble)	EM	90.49	—	Unverified
10	EntitySpanFocus+AT (ensemble)	EM	90.45	—	Unverified