Question Answering

Question answering can be segmented into domain-specific tasks like community question answering and knowledge-base question answering. Popular benchmark datasets for evaluation question answering systems include SQuAD, HotPotQA, bAbI, TriviaQA, WikiQA, and many others. Models for question answering are typically evaluated on metrics like EM and F1. Some recent top performing models are T5 and XLNet.

( Image credit: SQuAD )

Papers

Recently Added Most Hyped Most Active Needs Verification Most Verified

Showing 5676–5700 of 10817 papers

Title	Date	Tasks	Status
Learning to Summarise Related Sentences	Aug 1, 2014	Question AnsweringSentence Compression	—Unverified
Learning to Summarize and Answer Questions about a Virtual Robot's Past Actions	Jun 16, 2023	Language ModelingLanguage Modelling	—Unverified
Learning to Temporally Order Medical Events in Clinical Text	Jul 1, 2012	Document SummarizationInformation Retrieval	—Unverified
Convolutional Interaction Network for Natural Language Inference	Oct 1, 2018	Information RetrievalNatural Language Inference	—Unverified
Learning to Transpile AMR into SPARQL	Dec 15, 2021	Abstract Meaning RepresentationKnowledge Base Question Answering	—Unverified
Learning to Transpile AMR into SPARQL	Jan 16, 2022	Abstract Meaning RepresentationKnowledge Base Question Answering	—Unverified
Learning Trajectory-Word Alignments for Video-Language Tasks	Jan 5, 2023	Question AnsweringRetrieval	—Unverified
IIE-NLP-NUT at SemEval-2020 Task 4: Guiding PLM with Prompt Template Reconstruction Strategy for ComVE	Jul 2, 2020	Multiple-choiceQuestion Answering	—Unverified
Logical Consistency of Large Language Models in Fact-checking	Dec 20, 2024	Fact CheckingHallucination	—Unverified
Learning Verb Inference Rules from Linguistically-Motivated Evidence	Jul 1, 2012	Natural Language InferenceQuestion Answering	—Unverified
Learning Visual Knowledge Memory Networks for Visual Question Answering	Jun 13, 2018	Question AnsweringVisual Question Answering	—Unverified
IIE-NLP-Eyas at SemEval-2021 Task 4: Enhancing PLM for ReCAM with Special Tokens, Re-Ranking, Siamese Encoders and Back Translation	Feb 25, 2021	Multiple-choiceQuestion Answering	—Unverified
3DLLM-Mem: Long-Term Spatial-Temporal Memory for Embodied 3D Large Language Model	May 28, 2025	Language ModelingLanguage Modelling	—Unverified
Learning What Makes a Difference from Counterfactual Examples and Gradient Supervision	Apr 20, 2020	counterfactualimage-classification	—Unverified
Learning What to Remember: Long-term Episodic Memory Networks for Learning from Streaming Data	Dec 11, 2018	Lifelong learningQuestion Answering	—Unverified
Learning When to Retrieve, What to Rewrite, and How to Respond in Conversational QA	Sep 23, 2024	Conversational Question AnsweringInformation Retrieval	—Unverified
Learning with Limited Data for Multilingual Reading Comprehension	Nov 1, 2019	Question AnsweringReading Comprehension	—Unverified
Learning Word Embeddings for Low-Resource Languages by PU Learning	Jun 1, 2018	Document RankingImage Captioning	—Unverified
Learning Word Representations by Jointly Modeling Syntagmatic and Paradigmatic Relations	Jul 1, 2015	Information RetrievalNamed Entity Recognition (NER)	—Unverified
IICONGRAPH: improved Iconographic and Iconological Statements in Knowledge Graphs	Jan 24, 2024	Knowledge GraphsQuestion Answering	—Unverified
ConvKN at SemEval-2016 Task 3: Answer and Question Selection for Question Answering on Arabic and English Fora	Jun 1, 2016	Community Question AnsweringFeature Engineering	—Unverified
IHS-RD-Belarus at SemEval-2016 Task 1: Multistage Approach for Measuring Semantic Similarity	Jun 1, 2016	Information RetrievalMachine Translation	—Unverified
I Have Seen Enough: A Teacher Student Network for Video Classification Using Fewer Frames	May 12, 2018	ClassificationGeneral Classification	—Unverified
Logical Inference on Dependency-based Compositional Semantics	Jun 1, 2014	Question Answering	—Unverified
Logic-in-Frames: Dynamic Keyframe Search via Visual Semantic-Logical Verification for Long Video Understanding	Mar 17, 2025	AttributeMME	—Unverified

Show:10 25 50

← PrevPage 228 of 433Next →

All datasets SQuAD2.0 SQuAD1.1 HotpotQA PIQA BoolQ COPA TriviaQA SQuAD1.1 dev Natural Questions OpenBookQA TruthfulQA MultiRC

Benchmark Results

#	Model	Metric	Claimed	Verified	Status
1	IE-Net (ensemble)	EM	90.94	—	Unverified
2	FPNet (ensemble)	EM	90.87	—	Unverified
3	IE-NetV2 (ensemble)	EM	90.86	—	Unverified
4	SA-Net on Albert (ensemble)	EM	90.72	—	Unverified
5	SA-Net-V2 (ensemble)	EM	90.68	—	Unverified
6	FPNet (ensemble)	EM	90.6	—	Unverified
7	Retro-Reader (ensemble)	EM	90.58	—	Unverified
8	EntitySpanFocusV2 (ensemble)	EM	90.52	—	Unverified
9	TransNets + SFVerifier + SFEnsembler (ensemble)	EM	90.49	—	Unverified
10	EntitySpanFocus+AT (ensemble)	EM	90.45	—	Unverified