Question Answering

Question answering can be segmented into domain-specific tasks like community question answering and knowledge-base question answering. Popular benchmark datasets for evaluation question answering systems include SQuAD, HotPotQA, bAbI, TriviaQA, WikiQA, and many others. Models for question answering are typically evaluated on metrics like EM and F1. Some recent top performing models are T5 and XLNet.

( Image credit: SQuAD )

Papers

Recently Added Most Hyped Most Active Needs Verification Most Verified

Showing 10001–10025 of 10817 papers

Title	Date	Tasks	Status
Semeval-2013 Task 8: Cross-lingual Textual Entailment for Content Synchronization	Jun 1, 2013	Document SummarizationInformation Retrieval	—Unverified
SemEval-2014 Task 10: Multilingual Semantic Textual Similarity	Aug 1, 2014	Machine TranslationNatural Language Inference	—Unverified
SemEval-2014 Task 6: Supervised Semantic Parsing of Robotic Spatial Commands	Aug 1, 2014	Question AnsweringRelation Extraction	—Unverified
SemEval-2015 Task 14: Analysis of Clinical Text	Jun 1, 2015	Entity LinkingEpidemiology	—Unverified
SemEval-2015 Task 17: Taxonomy Extraction Evaluation (TExEval)	Jun 1, 2015	Natural Language InferenceQuestion Answering	—Unverified
SemEval-2015 Task 2: Semantic Textual Similarity, English, Spanish and Pilot on Interpretability	Jun 1, 2015	Natural Language InferenceQuestion Answering	—Unverified
SemEval-2015 Task 3: Answer Selection in Community Question Answering	Nov 26, 2019	Answer SelectionCommunity Question Answering	—Unverified
SemEval-2015 Task 5: QA TempEval - Evaluating Temporal Information Understanding with Question Answering	Jun 1, 2015	Question AnsweringTemporal Information Extraction	—Unverified
SemEval-2016 Task 13: Taxonomy Extraction Evaluation (TExEval-2)	Jun 1, 2016	Natural Language InferenceQuestion Answering	—Unverified
SemEval-2016 Task 1: Semantic Textual Similarity, Monolingual and Cross-Lingual Evaluation	Jun 1, 2016	Machine TranslationNatural Language Inference	—Unverified
SemEval-2016 Task 3: Community Question Answering	Dec 3, 2019	Community Question AnsweringQuestion Answering	—Unverified
SemEval-2017 Task 1: Semantic Textual Similarity Multilingual and Crosslingual Focused Evaluation	Aug 1, 2017	Machine TranslationNatural Language Inference	—Unverified
SemEval-2017 Task 2: Multilingual and Cross-lingual Semantic Word Similarity	Aug 1, 2017	Information RetrievalMachine Translation	—Unverified
SemEval 2018 Task 4: Character Identification on Multiparty Dialogues	Jun 1, 2018	Entity LinkingMachine Translation	—Unverified
SemEval-2018 Task 9: Hypernym Discovery	Jun 1, 2018	Binary ClassificationHypernym Discovery	—Unverified
SemEval-2022 Task 9: R2VQ – Competence-based Multimodal Question Answering	Jul 1, 2022	Question Answering	—Unverified
Semi-Automatic Construction of a Textual Entailment Dataset: Selecting Candidates with Vector Space Models	Nov 1, 2015	Natural Language InferenceQuestion Answering	—Unverified
Semi-automatic Korean FrameNet Annotation over KAIST Treebank	May 1, 2018	Dependency ParsingMorphological Analysis	—Unverified
Semi-compositional Method for Synonym Extraction of Multi-Word Terms	May 1, 2014	Question AnsweringText Summarization	—Unverified
Semi-interactive Attention Network for Answer Understanding in Reverse-QA	Jan 12, 2019	Question Answeringtext-classification	—Unverified
SEMILAR: The Semantic Similarity Toolkit	Aug 1, 2013	Paraphrase IdentificationQuestion Answering	—Unverified
Semi-Markov Phrase-Based Monolingual Alignment	Oct 1, 2013	Machine TranslationNatural Language Inference	—Unverified
SemioLLM: Assessing Large Language Models for Semiological Analysis in Epilepsy Research	Jul 3, 2024	DiagnosticMedical Question Answering	—Unverified
semiPQA: A Study on Product Question Answering over Semi-structured Data	May 1, 2022	AttributeQuestion Answering	—Unverified
Semi-Structured Chain-of-Thought: Integrating Multiple Sources of Knowledge for Improved Language Model Reasoning	Nov 14, 2023	Knowledge GraphsLanguage Modeling	—Unverified

Show:10 25 50

← PrevPage 401 of 433Next →

All datasets SQuAD2.0 SQuAD1.1 HotpotQA PIQA BoolQ COPA TriviaQA SQuAD1.1 dev Natural Questions OpenBookQA TruthfulQA MultiRC

Benchmark Results

#	Model	Metric	Claimed	Verified	Status
1	IE-Net (ensemble)	EM	90.94	—	Unverified
2	FPNet (ensemble)	EM	90.87	—	Unverified
3	IE-NetV2 (ensemble)	EM	90.86	—	Unverified
4	SA-Net on Albert (ensemble)	EM	90.72	—	Unverified
5	SA-Net-V2 (ensemble)	EM	90.68	—	Unverified
6	FPNet (ensemble)	EM	90.6	—	Unverified
7	Retro-Reader (ensemble)	EM	90.58	—	Unverified
8	EntitySpanFocusV2 (ensemble)	EM	90.52	—	Unverified
9	TransNets + SFVerifier + SFEnsembler (ensemble)	EM	90.49	—	Unverified
10	EntitySpanFocus+AT (ensemble)	EM	90.45	—	Unverified