Question Answering

Question answering can be segmented into domain-specific tasks like community question answering and knowledge-base question answering. Popular benchmark datasets for evaluation question answering systems include SQuAD, HotPotQA, bAbI, TriviaQA, WikiQA, and many others. Models for question answering are typically evaluated on metrics like EM and F1. Some recent top performing models are T5 and XLNet.

( Image credit: SQuAD )

Papers

Recently Added Most Hyped Most Active Needs Verification Most Verified

Showing 6976–7000 of 10817 papers

Title	Date	Tasks	Status
Hashing based Answer Selection	May 26, 2019	Answer SelectionQuestion Answering	—Unverified
Evaluating Self-Generated Documents for Enhancing Retrieval-Augmented Generation with Large Language Models	Oct 17, 2024	Language ModellingLarge Language Model	—Unverified
NSURL-2019 Shared Task 8: Semantic Question Similarity in Arabic	Sep 12, 2019	Question AnsweringQuestion Similarity	—Unverified
AutoKG: Constructing Virtual Knowledge Graphs from Unstructured Documents for Question Answering	Aug 20, 2020	FormKnowledge Graphs	—Unverified
Dodo: Dynamic Contextual Compression for Decoder-only LMs	Oct 3, 2023	DecoderLanguage Modeling	—Unverified
NUIG-UNLP at SemEval-2016 Task 13: A Simple Word Embedding-based Approach for Taxonomy Extraction	Jun 1, 2016	Natural Language InferenceQuestion Answering	—Unverified
Evaluating Span Extraction in Generative Paradigm: A Reflection on Aspect-Based Sentiment Analysis	Apr 17, 2024	Aspect-Based Sentiment AnalysisAspect-Based Sentiment Analysis (ABSA)	—Unverified
Harvest Video Foundation Models via Efficient Post-Pretraining	Oct 30, 2023	Question AnsweringText Retrieval	—Unverified
Harvesting Parallel News Streams to Generate Paraphrases of Event Relations	Oct 1, 2013	Machine TranslationQuestion Answering	—Unverified
NumLLM: Numeric-Sensitive Large Language Model for Chinese Finance	May 1, 2024	Language ModelingLanguage Modelling	—Unverified
Evaluating Text Segmentation using Boundary Edit Distance	Aug 1, 2013	Information RetrievalQuestion Answering	—Unverified
Constructing a Japanese Basic Named Entity Corpus of Various Genres	Aug 1, 2016	Information RetrievalQuestion Answering	—Unverified
A Survey for Large Language Models in Biomedicine	Aug 29, 2024	DiagnosticDrug Discovery	—Unverified
Open-domain Factoid Question Answering via Knowledge Graph Search	Jun 1, 2016	Knowledge GraphsOpen-Domain Question Answering	—Unverified
HARPY: Hypernyms and Alignment of Relational Paraphrases	Aug 1, 2014	Question Answering	—Unverified
A Survey Forest Diagram : Gain a Divergent Insight View on a Specific Research Topic	Jul 24, 2024	Information RetrievalQuestion Answering	—Unverified
A Multi-Domain Framework for Textual Similarity. A Case Study on Question-to-Question and Question-Answering Similarity Tasks	May 1, 2018	Community Question AnsweringNatural Language Inference	—Unverified
Constraint-based Multi-hop Question Answering with Knowledge Graph	Jul 1, 2022	Link PredictionMulti-hop Question Answering	—Unverified
Adding Context to Semantic Data-Driven Paraphrasing	Aug 1, 2016	Natural Language InferenceQuestion Answering	—Unverified
oBERTa: Improving Sparse Transfer Learning via improved initialization, distillation, and pruning regimes	Mar 30, 2023	Knowledge DistillationModel Compression	—Unverified
Evaluating the Meta- and Object-Level Reasoning of Large Language Models for Question Answering	Feb 14, 2025	Mathematical ReasoningObject	—Unverified
TMLab SRPOL at SemEval-2019 Task 8: Fact Checking in Community Question Answering Forums	May 29, 2019	Community Question AnsweringFact Checking	—Unverified
Harnessing Multilingual Resources to Question Answering in Arabic	May 16, 2022	Question Answering	—Unverified
Object-Centric Diagnosis of Visual Reasoning	Dec 21, 2020	DiagnosticObject	—Unverified
Constraint Based Description of Polish Multiword Expressions	May 1, 2012	Machine TranslationMorphological Analysis	—Unverified

Show:10 25 50

← PrevPage 280 of 433Next →

All datasets SQuAD2.0 SQuAD1.1 HotpotQA PIQA BoolQ COPA TriviaQA SQuAD1.1 dev Natural Questions OpenBookQA TruthfulQA MultiRC

Benchmark Results

#	Model	Metric	Claimed	Verified	Status
1	IE-Net (ensemble)	EM	90.94	—	Unverified
2	FPNet (ensemble)	EM	90.87	—	Unverified
3	IE-NetV2 (ensemble)	EM	90.86	—	Unverified
4	SA-Net on Albert (ensemble)	EM	90.72	—	Unverified
5	SA-Net-V2 (ensemble)	EM	90.68	—	Unverified
6	FPNet (ensemble)	EM	90.6	—	Unverified
7	Retro-Reader (ensemble)	EM	90.58	—	Unverified
8	EntitySpanFocusV2 (ensemble)	EM	90.52	—	Unverified
9	TransNets + SFVerifier + SFEnsembler (ensemble)	EM	90.49	—	Unverified
10	EntitySpanFocus+AT (ensemble)	EM	90.45	—	Unverified