Question Answering

Question answering can be segmented into domain-specific tasks like community question answering and knowledge-base question answering. Popular benchmark datasets for evaluation question answering systems include SQuAD, HotPotQA, bAbI, TriviaQA, WikiQA, and many others. Models for question answering are typically evaluated on metrics like EM and F1. Some recent top performing models are T5 and XLNet.

( Image credit: SQuAD )

Papers

Recently Added Most Hyped Most Active Needs Verification Most Verified

Showing 6901–6950 of 10817 papers

Title	Date	Tasks	Status
Neuro Symbolic Reasoning for Planning: Counterexample Guided Inductive Synthesis using Large Language Models and Satisfiability Solving	Sep 28, 2023	HallucinationQuestion Answering	—Unverified
Neuro-Symbolic Spatio-Temporal Reasoning	Nov 28, 2022	AI AgentImage Segmentation	—Unverified
Can Language Representation Models Think in Bets?	Oct 14, 2022	Decision MakingNatural Language Understanding	—Unverified
Neuro-Symbolic Visual Reasoning: Disentangling "Visual" from "Reasoning"	Jun 20, 2020	Graph GenerationQuestion Answering	—Unverified
Neuro-Symbolic VQA: A review from the perspective of AGI desiderata	Apr 13, 2021	Question AnsweringVisual Question Answering	—Unverified
Neuro-Vision to Language: Enhancing Brain Recording-based Visual Reconstruction and Language Interaction	Apr 30, 2024	Brain DecodingImage Reconstruction	—Unverified
On the Importance of Adaptive Data Collection for Extremely Imbalanced Pairwise Tasks	Oct 15, 2020	Active LearningOpen-Domain Question Answering	—Unverified
HFST-SweNER --- A New NER Resource for Swedish	May 1, 2014	Machine Translationnamed-entity-recognition	—Unverified
Context-augmented Retrieval: A Novel Framework for Fast Information Retrieval based Response Generation using Large Language Model	Jun 24, 2024	Answer GenerationInformation Retrieval	—Unverified
NEVLP: Noise-Robust Framework for Efficient Vision-Language Pre-training	Sep 15, 2024	Contrastive Learningcross-modal alignment	—Unverified
On the Generation of Medical Question-Answer Pairs	Nov 1, 2018	DecoderDiversity	—Unverified
Heterogeneous Relational Reasoning in Knowledge Graphs with Reinforcement Learning	Mar 12, 2020	Graph Neural NetworkKnowledge Graphs	—Unverified
Content Models for Survey Generation: A Factoid-Based Evaluation	Jul 1, 2015	Dependency ParsingInformation Retrieval	—Unverified
News about the Romanian Wordnet	Jan 1, 2014	Machine TranslationQuestion Answering	—Unverified
On the Hardness of Faithful Chain-of-Thought Reasoning in Large Language Models	Jun 15, 2024	In-Context LearningQuestion Answering	—Unverified
NEWSKVQA: Knowledge-Aware News Video Question Answering	Feb 8, 2022	Common Sense ReasoningManagement	—Unverified
Constructive Large Language Models Alignment with Diverse Feedback	Oct 10, 2023	Learning TheoryModels Alignment	—Unverified
HeRo: RoBERTa and Longformer Hebrew Language Models	Apr 18, 2023	Document ClassificationLanguage Modeling	—Unverified
A Multilingual Reading Comprehension System for more than 100 Languages	Dec 1, 2020	Machine Reading ComprehensionMachine Translation	—Unverified
Construction of Knowledge Graphs: State and Challenges	Feb 22, 2023	Knowledge GraphsManagement	—Unverified
On the General Value of Evidence, and Bilingual Scene-Text Visual Question Answering	Feb 24, 2020	Question AnsweringReferring Expression	—Unverified
NGQA: A Nutritional Graph Question Answering Benchmark for Personalized Health-aware Nutritional Reasoning	Dec 20, 2024	Graph Question AnsweringNutrition	—Unverified
On the Importance of Diversity in Question Generation for QA	Jul 1, 2020	DiversityQuestion Answering	—Unverified
On the Multilingual Capabilities of Very Large-Scale English Language Models	Nov 16, 2021	Extractive Question-AnsweringFew-Shot Learning	—Unverified
niksss at Qur’an QA 2022: A Heavily Optimized BERT Based Model for Answering Questions from the Holy Qu’ran	Jun 1, 2022	ClusteringQuestion Answering	—Unverified
Relation Extraction from Community Generated Question-Answer Pairs	Jun 1, 2015	Community Question AnsweringKnowledge Base Population	—Unverified
Heroes, Villains, and Victims, and GPT-3: Automated Extraction of Character Roles Without Training Data	May 16, 2022	ArticlesQuestion Answering	—Unverified
HENRY-CORE: Domain Adaptation and Stacking for Text Similarity	Jun 1, 2013	Domain AdaptationMachine Translation	—Unverified
NL2KB: Resolving Vocabulary Gap between Natural Language and Knowledge Base in Knowledge Base Construction and Retrieval	Dec 1, 2016	Knowledge Base ConstructionQuestion Answering	—Unverified
Evaluating Hallucination in Text-to-Image Diffusion Models with Scene-Graph based Question-Answering Agent	Dec 7, 2024	HallucinationQuestion Answering	—Unverified
Construction of a Syntactic Analysis Map for Yi Shui School through Text Mining and Natural Language Processing Research	Feb 16, 2024	graph constructionInformation Retrieval	—Unverified
Constructing the CORD-19 Vaccine Dataset	Jul 26, 2024	Question AnsweringSentence	—Unverified
A Survey of Large Language Models for Arabic Language and its Dialects	Oct 26, 2024	Decodernamed-entity-recognition	—Unverified
NLP-AKG: Few-Shot Construction of NLP Academic Knowledge Graph Based on LLM	Feb 20, 2025	graph constructionQuestion Answering	—Unverified
On the Efficacy of Co-Attention Transformer Layers in Visual Question Answering	Jan 11, 2022	POSQuestion Answering	—Unverified
Helpful or Harmful? Exploring the Efficacy of Large Language Models for Online Grooming Prevention	Mar 14, 2024	Answer GenerationQuestion Answering	—Unverified
Constructing Micro Knowledge Graphs from Technical Support Documents	Apr 14, 2025	Knowledge GraphsQuestion Answering	—Unverified
NLProlog: Reasoning with Weak Unification for Natural Language Question Answering	May 1, 2019	Question AnsweringSentence	—Unverified
A Survey of Large Language Model Agents for Question Answering	Mar 24, 2025	Answer GenerationInformation Retrieval	—Unverified
Healthy LLMs? Benchmarking LLM Knowledge of UK Government Public Health Information	May 9, 2025	BenchmarkingForm	—Unverified
HealthQ: Unveiling Questioning Capabilities of LLM Chains in Healthcare Conversations	Sep 28, 2024	Dataset GenerationInformativeness	—Unverified
NMT-Keras: a Very Flexible Toolkit with a Focus on Interactive NMT and Online Learning	Jul 9, 2018	General ClassificationMachine Translation	—Unverified
Constructing Large Proposition Databases	May 1, 2012	Dependency ParsingMachine Translation	—Unverified
A Multilingual Entity Linker Using PageRank and Semantic Graphs	May 1, 2017	Entity LinkingNamed Entity Recognition (NER)	—Unverified
Noise Contrastive Estimation and Negative Sampling for Conditional Models: Consistency and Statistical Efficiency	Sep 6, 2018	ClassificationGeneral Classification	—Unverified
A Probabilistic Annotation Model for Crowdsourcing Coreference	Oct 1, 2018	Coreference Resolutionmodel	—Unverified
On the Feasibility of Predicting Questions being Forgotten in Stack Overflow	Oct 29, 2021	Question Answering	—Unverified
HEAD-QA: A Healthcare Dataset for Complex Reasoning	Jun 11, 2019	Information RetrievalPosition	—Unverified
Headline Generation: Learning from Decomposable Document Titles	Apr 17, 2019	ArticlesHeadline Generation	—Unverified
HD-RAG: Retrieval-Augmented Generation for Hybrid Documents Containing Text and Hierarchical Tables	Apr 13, 2025	Question AnsweringRAG	—Unverified

Show:10 25 50

← PrevPage 139 of 217Next →

All datasets SQuAD2.0 SQuAD1.1 HotpotQA PIQA BoolQ COPA TriviaQA SQuAD1.1 dev Natural Questions OpenBookQA TruthfulQA MultiRC

Benchmark Results

#	Model	Metric	Claimed	Verified	Status
1	IE-Net (ensemble)	EM	90.94	—	Unverified
2	FPNet (ensemble)	EM	90.87	—	Unverified
3	IE-NetV2 (ensemble)	EM	90.86	—	Unverified
4	SA-Net on Albert (ensemble)	EM	90.72	—	Unverified
5	SA-Net-V2 (ensemble)	EM	90.68	—	Unverified
6	FPNet (ensemble)	EM	90.6	—	Unverified
7	Retro-Reader (ensemble)	EM	90.58	—	Unverified
8	EntitySpanFocusV2 (ensemble)	EM	90.52	—	Unverified
9	TransNets + SFVerifier + SFEnsembler (ensemble)	EM	90.49	—	Unverified
10	EntitySpanFocus+AT (ensemble)	EM	90.45	—	Unverified