Question Answering

Question answering can be segmented into domain-specific tasks like community question answering and knowledge-base question answering. Popular benchmark datasets for evaluation question answering systems include SQuAD, HotPotQA, bAbI, TriviaQA, WikiQA, and many others. Models for question answering are typically evaluated on metrics like EM and F1. Some recent top performing models are T5 and XLNet.

( Image credit: SQuAD )

Papers

Recently Added Most Hyped Most Active Needs Verification Most Verified

Showing 10726–10750 of 10817 papers

Title	Date	Tasks	Status
SRQA: Synthetic Reader for Factoid Question Answering	Sep 2, 2020	Question Answering	CodeCode Available
Whatcha lookin' at? DeepLIFTing BERT's Attention in Question Answering	Oct 14, 2019	Question Answering	CodeCode Available
Visually Dehallucinative Instruction Generation	Feb 13, 2024	HallucinationLanguage Modeling	CodeCode Available
Visually Grounded VQA by Lattice-based Retrieval	Nov 15, 2022	Information RetrievalQuestion Answering	CodeCode Available
SqueezeBERT: What can computer vision teach NLP about efficient neural networks?	Jun 19, 2020	Linguistic AcceptabilityNatural Language Inference	CodeCode Available
Unsupervised Improvement of Factual Knowledge in Language Models	Apr 4, 2023	Language ModelingLanguage Modelling	CodeCode Available
Sigma: A dataset for text-to-code semantic parsing with statistical analysis	Apr 5, 2025	Question AnsweringSemantic Parsing	CodeCode Available
Visually Interpretable Subtask Reasoning for Visual Question Answering	May 12, 2025	AttributeObject Recognition	CodeCode Available
The Devil is in the Details: Evaluating Limitations of Transformer-based Methods for Granular Tasks	Nov 2, 2020	Question AnsweringSentiment Analysis	CodeCode Available
What Does My QA Model Know? Devising Controlled Probes using Expert Knowledge	Dec 31, 2019	General KnowledgeKnowledge Graphs	CodeCode Available
Where is the answer? Investigating Positional Bias in Language Model Knowledge Extraction	Feb 16, 2024	DenoisingLanguage Modeling	CodeCode Available
Unsupervised Matching of Data and Text	Dec 16, 2021	Entity ResolutionQuestion Answering	CodeCode Available
The BLue Amazon Brain (BLAB): A Modular Architecture of Services about the Brazilian Maritime Territory	Sep 6, 2022	Question Answering	CodeCode Available
Self-Critical Reasoning for Robust Visual Question Answering	May 24, 2019	Question AnsweringVisual Question Answering	CodeCode Available
SQL Generation via Machine Reading Comprehension	Dec 1, 2020	Machine Reading ComprehensionQuestion Answering	CodeCode Available
SQATIN: Supervised Instruction Tuning Meets Question Answering for Improved Dialogue NLU	Nov 16, 2023	Intent DetectionNatural Language Understanding	CodeCode Available
Unsupervised Natural Language Generation with Denoising Autoencoders	Apr 21, 2018	DenoisingQuestion Answering	CodeCode Available
Siamese Tracking with Lingual Object Constraints	Nov 23, 2020	ObjectObject Tracking	CodeCode Available
Speed Reading: Learning to Read ForBackward via Shuttle	Oct 1, 2018	Document ClassificationDocument Summarization	CodeCode Available
Should We Fine-Tune or RAG? Evaluating Different Techniques to Adapt LLMs for Dialogue	Jun 10, 2024	In-Context LearningQuestion Answering	CodeCode Available
Zero-shot User Intent Detection via Capsule Neural Networks	Sep 2, 2018	Intent DetectionQuestion Answering	CodeCode Available
Unsupervised Question Answering by Cloze Translation	Jun 12, 2019	Natural QuestionsNMT	CodeCode Available
YTCommentQA: Video Question Answerability in Instructional Videos	Jan 30, 2024	Question AnsweringVideo Question Answering	CodeCode Available
Unsupervised Question Answering via Answer Diversifying	Aug 23, 2022	Data AugmentationDenoising	CodeCode Available
Will LLMs Replace the Encoder-Only Models in Temporal Relation Classification?	Oct 14, 2024	In-Context LearningQuestion Answering	CodeCode Available

Show:10 25 50

← PrevPage 430 of 433Next →

All datasets SQuAD2.0 SQuAD1.1 HotpotQA PIQA BoolQ COPA TriviaQA SQuAD1.1 dev Natural Questions OpenBookQA TruthfulQA MultiRC

Benchmark Results

#	Model	Metric	Claimed	Verified	Status
1	IE-Net (ensemble)	EM	90.94	—	Unverified
2	FPNet (ensemble)	EM	90.87	—	Unverified
3	IE-NetV2 (ensemble)	EM	90.86	—	Unverified
4	SA-Net on Albert (ensemble)	EM	90.72	—	Unverified
5	SA-Net-V2 (ensemble)	EM	90.68	—	Unverified
6	FPNet (ensemble)	EM	90.6	—	Unverified
7	Retro-Reader (ensemble)	EM	90.58	—	Unverified
8	EntitySpanFocusV2 (ensemble)	EM	90.52	—	Unverified
9	TransNets + SFVerifier + SFEnsembler (ensemble)	EM	90.49	—	Unverified
10	EntitySpanFocus+AT (ensemble)	EM	90.45	—	Unverified