Question Answering

Question answering can be segmented into domain-specific tasks like community question answering and knowledge-base question answering. Popular benchmark datasets for evaluation question answering systems include SQuAD, HotPotQA, bAbI, TriviaQA, WikiQA, and many others. Models for question answering are typically evaluated on metrics like EM and F1. Some recent top performing models are T5 and XLNet.

( Image credit: SQuAD )

Papers

Recently Added Most Hyped Most Active Needs Verification Most Verified

Showing 5801–5825 of 10817 papers

Title	Date	Tasks	Status
Linguistic Embeddings as a Common-Sense Knowledge Repository: Challenges and Opportunities	Sep 25, 2019	Common Sense ReasoningMachine Translation	—Unverified
Linguistic Resources for Entity Linking Evaluation: from Monolingual to Cross-lingual	May 1, 2012	Cross-Lingual Entity LinkingEntity Linking	—Unverified
A Thousand Words Are Worth More Than a Picture: Natural Language-Centric Outside-Knowledge Visual Question Answering	Jan 14, 2022	Generative Question AnsweringImage to text	—Unverified
Identifying the Provision of Choices in Privacy Policy Text	Sep 1, 2017	Question Answering	—Unverified
LINKAGE: Listwise Ranking among Varied-Quality References for Non-Factoid QA Evaluation via LLMs	Sep 23, 2024	Learning-To-RankQuestion Answering	—Unverified
Identifying Supporting Facts for Multi-hop Question Answering with Document Graph Networks	Oct 1, 2019	Multi-hop Question AnsweringQuestion Answering	—Unverified
Identifying Shopping Intent in Product QA for Proactive Recommendations	Apr 9, 2024	FrictionMixture-of-Experts	—Unverified
Linking, Searching, and Visualizing Entities in Wikipedia	May 1, 2018	Entity Extraction using GANNamed Entity Recognition (NER)	—Unverified
Conversational Question Answering on Heterogeneous Sources	Apr 25, 2022	Conversational Question AnsweringDecoder	—Unverified
LIORI at SemEval-2021 Task 2: Span Prediction and Binary Classification approaches to Word-in-Context Disambiguation	Aug 1, 2021	Binary ClassificationData Augmentation	—Unverified
LIORI at SemEval-2021 Task 8: Ask Transformer for measurements	Aug 1, 2021	Multi-Task LearningQuestion Answering	—Unverified
LIPN-CORE: Semantic Text Similarity using n-grams, WordNet, Syntactic Analysis, ESA and Information Retrieval based Features	Jun 1, 2013	Information RetrievalNatural Language Inference	—Unverified
A Theoretically Grounded Benchmark for Evaluating Machine Commonsense	Mar 23, 2022	Generative Question AnsweringMultiple-choice	—Unverified
Do LLMs Know When to NOT Answer? Investigating Abstention Abilities of Large Language Models	Jul 23, 2024	Language ModellingLarge Language Model	—Unverified
Listening Comprehension over Argumentative Content	Oct 1, 2018	Automatic Speech Recognition (ASR)Machine Reading Comprehension	—Unverified
Listening to the Wise Few: Select-and-Copy Attention Heads for Multiple-Choice QA	Oct 3, 2024	Multiple-choiceQuestion Answering	—Unverified
Do LLMs Understand Ambiguity in Text? A Case Study in Open-world Question Answering	Nov 19, 2024	Fact CheckingOpen-Domain Question Answering	—Unverified
LIST-LUX: Disorder Identification from Clinical Texts	Jun 1, 2015	Information RetrievalQuestion Answering	—Unverified
A Deep Cascade Model for Multi-Document Reading Comprehension	Nov 28, 2018	Machine Reading ComprehensionQuestion Answering	—Unverified
Making the Most of What You Have: Adapting Pre-trained Visual Language Models in the Low-data Regime	May 3, 2023	Image CaptioningQuestion Answering	—Unverified
mALBERT: Is a Compact Multilingual BERT Model Still Worth It?	Mar 27, 2024	Language ModelingLanguage Modelling	—Unverified
LiteVL: Efficient Video-Language Learning with Enhanced Spatial-Temporal Modeling	Oct 21, 2022	Language ModelingLanguage Modelling	—Unverified
Litigation Analytics: Extracting and querying motions and orders from US federal courts	Jun 1, 2019	BIG-bench Machine LearningQuestion Answering	—Unverified
Dolphin: A Challenging and Diverse Benchmark for Arabic NLG	May 24, 2023	Dialogue GenerationDiversity	—Unverified
Identifying Purpose Behind Electoral Tweets	Nov 5, 2013	Question Answering	—Unverified

Show:10 25 50

← PrevPage 233 of 433Next →

All datasets SQuAD2.0 SQuAD1.1 HotpotQA PIQA BoolQ COPA TriviaQA SQuAD1.1 dev Natural Questions OpenBookQA TruthfulQA MultiRC

Benchmark Results

#	Model	Metric	Claimed	Verified	Status
1	IE-Net (ensemble)	EM	90.94	—	Unverified
2	FPNet (ensemble)	EM	90.87	—	Unverified
3	IE-NetV2 (ensemble)	EM	90.86	—	Unverified
4	SA-Net on Albert (ensemble)	EM	90.72	—	Unverified
5	SA-Net-V2 (ensemble)	EM	90.68	—	Unverified
6	FPNet (ensemble)	EM	90.6	—	Unverified
7	Retro-Reader (ensemble)	EM	90.58	—	Unverified
8	EntitySpanFocusV2 (ensemble)	EM	90.52	—	Unverified
9	TransNets + SFVerifier + SFEnsembler (ensemble)	EM	90.49	—	Unverified
10	EntitySpanFocus+AT (ensemble)	EM	90.45	—	Unverified