Question Answering

Question answering can be segmented into domain-specific tasks like community question answering and knowledge-base question answering. Popular benchmark datasets for evaluation question answering systems include SQuAD, HotPotQA, bAbI, TriviaQA, WikiQA, and many others. Models for question answering are typically evaluated on metrics like EM and F1. Some recent top performing models are T5 and XLNet.

( Image credit: SQuAD )

Papers

Recently Added Most Hyped Most Active Needs Verification Most Verified

Showing 1851–1875 of 10817 papers

Title	Date	Tasks	Status	Hype	Score
CoTKR: Chain-of-Thought Enhanced Knowledge Rewriting for Complex Knowledge Graph Question Answering	Sep 29, 2024	Graph Question AnsweringQuestion Answering	CodeCode Available	1	5
Change Detection Meets Visual Question Answering	Dec 12, 2021	Answer GenerationChange Detection	CodeCode Available	1	5
Conceptual 12M: Pushing Web-Scale Image-Text Pre-Training To Recognize Long-Tail Visual Concepts	Feb 17, 2021	Caption GenerationDiversity	CodeCode Available	1	5
In Defense of Grid Features for Visual Question Answering	Jan 10, 2020	Image CaptioningQuestion Answering	CodeCode Available	1	5
Large language model validity via enhanced conformal prediction methods	Jun 14, 2024	Conformal PredictionLanguage Modeling	CodeCode Available	1	5
CharacterBox: Evaluating the Role-Playing Capabilities of LLMs in Text-Based Virtual Worlds	Dec 7, 2024	Question Answering	CodeCode Available	1	5
Fine-tuned LLMs Know More, Hallucinate Less with Few-Shot Sequence-to-Sequence Semantic Parsing over Wikidata	May 23, 2023	Knowledge Base Question AnsweringKnowledge Graphs	CodeCode Available	1	5
InfoBERT: Improving Robustness of Language Models from An Information Theoretic Perspective	Oct 5, 2020	Natural Language InferenceQuestion Answering	CodeCode Available	1	5
InfMLLM: A Unified Framework for Visual-Language Tasks	Nov 12, 2023	GPUImage Captioning	CodeCode Available	1	5
SemEval-2017 Task 1: Semantic Textual Similarity - Multilingual and Cross-lingual Focused Evaluation	Jul 31, 2017	Machine TranslationQuestion Answering	CodeCode Available	1	5
InfiBench: Evaluating the Question-Answering Capabilities of Code Large Language Models	Mar 11, 2024	Code GenerationHumanEval	CodeCode Available	1	5
Compositional 4D Dynamic Scenes Understanding with Physics Priors for Video Question Answering	Jun 2, 2024	counterfactualCounterfactual Reasoning	CodeCode Available	1	5
Characterizing Truthfulness in Large Language Model Generations with Local Intrinsic Dimension	Feb 28, 2024	Language ModelingLanguage Modelling	CodeCode Available	1	5
Large-Scale Adversarial Training for Vision-and-Language Representation Learning	Jun 11, 2020	Image-text RetrievalQuestion Answering	CodeCode Available	1	5
Information Theoretic Representation Distillation	Dec 1, 2021	Classification with Binary Weight NetworkKnowledge Distillation	CodeCode Available	1	5
InforMask: Unsupervised Informative Masking for Language Model Pretraining	Oct 21, 2022	Language ModelingLanguage Modelling	CodeCode Available	1	5
Large-Scale Relation Learning for Question Answering over Knowledge Bases with Pre-trained Language Models	Nov 1, 2021	Question AnsweringRelation	CodeCode Available	1	5
CharBERT: Character-aware Pre-trained Language Model	Nov 3, 2020	Language ModelingLanguage Modelling	CodeCode Available	1	5
Injecting Numerical Reasoning Skills into Language Models	Apr 9, 2020	Data AugmentationDecoder	CodeCode Available	1	5
Initial Nugget Evaluation Results for the TREC 2024 RAG Track with the AutoNuggetizer Framework	Nov 14, 2024	Question AnsweringRAG	CodeCode Available	1	5
Learning Associative Inference Using Fast Weight Memory	Nov 16, 2020	Language ModellingMeta Reinforcement Learning	CodeCode Available	1	5
Insights into Alignment: Evaluating DPO and its Variants Across Multiple Tasks	Apr 23, 2024	Mathematical Problem-SolvingQuestion Answering	CodeCode Available	1	5
Learning to Discretely Compose Reasoning Module Networks for Video Captioning	Jul 17, 2020	DecoderQuestion Answering	CodeCode Available	1	5
ChartInstruct: Instruction Tuning for Chart Comprehension and Reasoning	Mar 14, 2024	Chart UnderstandingInstruction Following	CodeCode Available	1	5
Lila: A Unified Benchmark for Mathematical Reasoning	Oct 31, 2022	DiversityMathematical Reasoning	CodeCode Available	1	5

Show:10 25 50

← PrevPage 75 of 433Next →

All datasets SQuAD2.0 SQuAD1.1 HotpotQA PIQA BoolQ COPA TriviaQA SQuAD1.1 dev Natural Questions OpenBookQA TruthfulQA MultiRC

Benchmark Results

#	Model	Metric	Claimed	Verified	Status
1	IE-Net (ensemble)	EM	90.94	—	Unverified
2	FPNet (ensemble)	EM	90.87	—	Unverified
3	IE-NetV2 (ensemble)	EM	90.86	—	Unverified
4	SA-Net on Albert (ensemble)	EM	90.72	—	Unverified
5	SA-Net-V2 (ensemble)	EM	90.68	—	Unverified
6	FPNet (ensemble)	EM	90.6	—	Unverified
7	Retro-Reader (ensemble)	EM	90.58	—	Unverified
8	EntitySpanFocusV2 (ensemble)	EM	90.52	—	Unverified
9	TransNets + SFVerifier + SFEnsembler (ensemble)	EM	90.49	—	Unverified
10	EntitySpanFocus+AT (ensemble)	EM	90.45	—	Unverified