Question Answering

Question answering can be segmented into domain-specific tasks like community question answering and knowledge-base question answering. Popular benchmark datasets for evaluation question answering systems include SQuAD, HotPotQA, bAbI, TriviaQA, WikiQA, and many others. Models for question answering are typically evaluated on metrics like EM and F1. Some recent top performing models are T5 and XLNet.

( Image credit: SQuAD )

Papers

Recently Added Most Hyped Most Active Needs Verification Most Verified

Showing 6451–6500 of 10817 papers

Title	Date	Tasks	Status
Large-Scale Knowledge Synthesis and Complex Information Retrieval from Biomedical Documents	Feb 14, 2023	Information RetrievalKnowledge Graphs	—Unverified
DialDoc 2021 Shared Task: Goal-Oriented Document-grounded Dialogue Modeling	Aug 1, 2021	Conversational Question AnsweringQuestion Answering	—Unverified
Basic Reasoning with Tensor Product Representations	Jan 12, 2016	Question Answering	—Unverified
Modelling Long-distance Node Relations for KBQA with Global Dynamic Graph	Dec 1, 2020	Question AnsweringVocal Bursts Type Prediction	—Unverified
Large-Scale Goodness Polarity Lexicons for Community Question Answering	Jul 20, 2017	Community Question AnsweringQuestion Answering	—Unverified
Models in the Loop: Aiding Crowdworkers with Generative Annotation Assistants	Dec 16, 2021	Extractive Question-AnsweringQuestion Answering	—Unverified
Large Scale Generative Multimodal Attribute Extraction for E-commerce Attributes	Jun 1, 2023	AttributeAttribute Extraction	—Unverified
Model Tailor: Mitigating Catastrophic Forgetting in Multi-modal Large Language Models	Feb 19, 2024	Image CaptioningQuestion Answering	—Unverified
Modern Question Answering Datasets and Benchmarks: A Survey	Jun 30, 2022	Deep LearningQuestion Answering	—Unverified
Modular Blended Attention Network for Video Question Answering	Nov 2, 2023	Question AnsweringVideo Question Answering	—Unverified
Diagnosing and Addressing Pitfalls in KG-RAG Datasets: Toward More Reliable Benchmarking	May 29, 2025	BenchmarkingGraph Question Answering	—Unverified
BAS: An Answer Selection Method Using BERT Language Model	Nov 4, 2019	Answer SelectionLanguage Modeling	—Unverified
Large-scale CCG Induction from the Groningen Meaning Bank	Jun 1, 2014	Question AnsweringSemantic Parsing	—Unverified
DiagGPT: An LLM-based and Multi-agent Dialogue System with Automatic Topic Management for Flexible Task-Oriented Dialogue	Aug 15, 2023	ChatbotDiagnostic	—Unverified
Large-Scale Acquisition of Entailment Pattern Pairs by Exploiting Transitivity	Sep 1, 2015	Natural Language InferenceQuestion Answering	—Unverified
Large-Scale Acquisition of Commonsense Knowledge via a Quiz Game on a Dialogue System	Dec 1, 2016	Common Sense ReasoningQuestion Answering	—Unverified
DH-RAG: A Dynamic Historical Context-Powered Retrieval-Augmented Generation Method for Multi-Turn Dialogue	Feb 19, 2025	Question AnsweringRAG	—Unverified
BARTPhoBEiT: Pre-trained Sequence-to-Sequence and Image Transformers Models for Vietnamese Visual Question Answering	Jul 28, 2023	Question AnsweringVietnamese Visual Question Answering	—Unverified
A Neural Question Answering System for Basic Questions about Subroutines	Jan 11, 2021	DecoderQuestion Answering	—Unverified
Adversarial Multimodal Network for Movie Question Answering	Jun 24, 2019	Question AnsweringVideo Question Answering	—Unverified
LargePiG: Your Large Language Model is Secretly a Pointer Generator	Oct 15, 2024	HallucinationLanguage Modeling	—Unverified
DHP Benchmark: Are LLMs Good NLG Evaluators?	Aug 25, 2024	Benchmarkingnlg evaluation	—Unverified
DGRAG: Distributed Graph-based Retrieval-Augmented Generation in Edge-Cloud Systems	May 26, 2025	Answer GenerationKnowledge Graphs	—Unverified
Mondrian: Prompt Abstraction Attack Against Large Language Models for Cheaper API Pricing	Aug 7, 2023	Language ModellingLarge Language Model	—Unverified
Mongolian Named Entity Recognition System with Rich Features	Dec 1, 2016	Machine Translationnamed-entity-recognition	—Unverified
Mongolian Questions Classification Based on Mulit-Head Attention	Oct 1, 2020	ClassificationQuestion Answering	—Unverified
Barriers in Integrating Medical Visual Question Answering into Radiology Workflows: A Scoping Review and Clinicians' Insights	Jul 9, 2025	DiagnosticMedical Visual Question Answering	—Unverified
A Neural Question Answering Model Based on Semi-Structured Tables	Aug 1, 2018	Knowledge GraphsMultiple-choice	—Unverified
Large language models in healthcare and medical domain: A review	Dec 12, 2023	Document Classificationnamed-entity-recognition	—Unverified
Development of Hybrid Algorithm for Automatic Extraction of Multiword Expressions from Monolingual and Parallel Corpus of English and Punjabi	Dec 1, 2020	Information RetrievalMachine Translation	—Unverified
Monolingual Social Media Datasets for Detecting Contradiction and Entailment	May 1, 2016	Natural Language InferenceQuestion Answering	—Unverified
Large Language Models for Social Networks: Applications, Challenges, and Solutions	Jan 4, 2024	Question Answering	—Unverified
Developing Question-Answering Models in Low-Resource Languages: A Case Study on Turkish Medical Texts Using Transformer-Based Approaches	Oct 16, 2024	Language ModelingLanguage Modelling	—Unverified
Large Language Models for Multi-Choice Question Classification of Medical Subjects	Mar 21, 2024	Multi-class ClassificationQuestion Answering	—Unverified
Developing ML-based Systems to Extract Medical Information from Japanese Medical History Summaries	Oct 1, 2013	Information RetrievalNamed Entity Recognition (NER)	—Unverified
Barking Up The Syntactic Tree: Enhancing VLM Training with Syntactic Losses	Dec 11, 2024	Image-text RetrievalQuestion Answering	—Unverified
A Neural Network Model for Low-Resource Universal Dependency Parsing	Sep 1, 2015	Dependency ParsingDomain Adaptation	—Unverified
MoReVQA: Exploring Modular Reasoning Models for Video Question Answering	Apr 9, 2024	EgoSchemaMultiple-choice	—Unverified
A Competence-aware Curriculum for Visual Concepts Learning via Question Answering	Jul 3, 2020	Question Answering	—Unverified
Morpho-syntactic Lexical Generalization for CCG Semantic Parsing	Oct 1, 2014	Question AnsweringSemantic Parsing	—Unverified
Morpho-Syntactic Study of Errors from Speech Recognition System	May 1, 2014	Named Entity Recognition (NER)POS	—Unverified
3D Concept Learning and Reasoning from Multi-View Images	Mar 20, 2023	Question AnsweringVisual Question Answering	—Unverified
MoRS at SemEval-2017 Task 3: Easy to use SVM in Ranking Tasks	Aug 1, 2017	Community Question AnsweringInformation Retrieval	—Unverified
MORTY: Structured Summarization for Targeted Information Extraction from Scholarly Articles	Dec 11, 2022	ArticlesManagement	—Unverified
Large Language Models for Judicial Entity Extraction: A Comparative Study	Jul 8, 2024	Information RetrievalLanguage Modeling	—Unverified
MOSMOS: Multi-organ segmentation facilitated by medical report supervision	Sep 4, 2024	Contrastive LearningOrgan Segmentation	—Unverified
Motion-Appearance Co-Memory Networks for Video Question Answering	Mar 29, 2018	Question AnsweringVideo Question Answering	—Unverified
Developing ChatGPT for Biology and Medicine: A Complete Review of Biomedical Question Answering	Jan 15, 2024	Cross-Modal RetrievalMedical Diagnosis	—Unverified
Large Language Models Can Self-Improve	Oct 20, 2022	Arithmetic ReasoningCommon Sense Reasoning	—Unverified
Developing a How-to Tip Machine Comprehension Dataset and its Evaluation in Machine Comprehension by BERT	Jul 1, 2020	Question AnsweringReading Comprehension	—Unverified

Show:10 25 50

← PrevPage 130 of 217Next →

All datasets SQuAD2.0 SQuAD1.1 HotpotQA PIQA BoolQ COPA TriviaQA SQuAD1.1 dev Natural Questions OpenBookQA TruthfulQA MultiRC

Benchmark Results

#	Model	Metric	Claimed	Verified	Status
1	IE-Net (ensemble)	EM	90.94	—	Unverified
2	FPNet (ensemble)	EM	90.87	—	Unverified
3	IE-NetV2 (ensemble)	EM	90.86	—	Unverified
4	SA-Net on Albert (ensemble)	EM	90.72	—	Unverified
5	SA-Net-V2 (ensemble)	EM	90.68	—	Unverified
6	FPNet (ensemble)	EM	90.6	—	Unverified
7	Retro-Reader (ensemble)	EM	90.58	—	Unverified
8	EntitySpanFocusV2 (ensemble)	EM	90.52	—	Unverified
9	TransNets + SFVerifier + SFEnsembler (ensemble)	EM	90.49	—	Unverified
10	EntitySpanFocus+AT (ensemble)	EM	90.45	—	Unverified