Question Answering

Question answering can be segmented into domain-specific tasks like community question answering and knowledge-base question answering. Popular benchmark datasets for evaluation question answering systems include SQuAD, HotPotQA, bAbI, TriviaQA, WikiQA, and many others. Models for question answering are typically evaluated on metrics like EM and F1. Some recent top performing models are T5 and XLNet.

( Image credit: SQuAD )

Papers

Recently Added Most Hyped Most Active Needs Verification Most Verified

Showing 901–950 of 10817 papers

Title	Date	Tasks	Status	Hype
DSPNet: Dual-vision Scene Perception for Robust 3D Question Answering	Mar 5, 2025	3D Question Answering (3D-QA)Question Answering	CodeCode Available	1
Graphusion: Leveraging Large Language Models for Scientific Knowledge Graph Fusion and Construction in NLP Education	Jul 15, 2024	graph constructionKnowledge Graphs	CodeCode Available	1
DRESSing Up LLM: Efficient Stylized Question-Answering via Style Subspace Editing	Jan 24, 2025	Language ModelingLanguage Modelling	CodeCode Available	1
GRIT: General Robust Image Task Benchmark	Apr 28, 2022	Instance SegmentationKeypoint Detection	CodeCode Available	1
Grounded Multi-Hop VideoQA in Long-Form Egocentric Videos	Aug 26, 2024	FormLanguage Modelling	CodeCode Available	1
An Optimal Algorithm for Finding Champions in Tournament Graphs	Nov 26, 2021	Conversational SearchInformation Retrieval	CodeCode Available	1
DrBenchmark: A Large Language Understanding Evaluation Benchmark for French Biomedical Domain	Feb 20, 2024	named-entity-recognitionNamed Entity Recognition	CodeCode Available	1
Don't Generate, Discriminate: A Proposal for Grounding Language Models to Real-World Environments	Dec 19, 2022	In-Context LearningKnowledge Base Question Answering	CodeCode Available	1
DOM-LM: Learning Generalizable Representations for HTML Documents	Jan 25, 2022	AttributeAttribute Extraction	CodeCode Available	1
Are Deep Neural Networks SMARTer than Second Graders?	Dec 20, 2022	Language ModellingMeta-Learning	CodeCode Available	1
Don't Take the Easy Way Out: Ensemble Based Methods for Avoiding Known Dataset Biases	Sep 9, 2019	Natural Language InferenceQuestion Answering	CodeCode Available	1
DREAM: Improving Situational QA by First Elaborating the Situation	Dec 16, 2021	Question Answering	CodeCode Available	1
DocVXQA: Context-Aware Visual Explanations for Document Question Answering	May 12, 2025	Question Answering	CodeCode Available	1
Hengam: An Adversarially Trained Transformer for Persian Temporal Tagging	Nov 20, 2022	Information RetrievalNamed Entity Recognition (NER)	CodeCode Available	1
DocVQA: A Dataset for VQA on Document Images	Jul 1, 2020	Question AnsweringReading Comprehension	CodeCode Available	1
DocNLI: A Large-scale Dataset for Document-level Natural Language Inference	Jun 17, 2021	Natural Language InferenceQuestion Answering	CodeCode Available	1
Hierarchical multimodal transformers for Multi-Page DocVQA	Dec 7, 2022	DecoderQuestion Answering	CodeCode Available	1
Hierarchical Prompting Taxonomy: A Universal Evaluation Framework for Large Language Models Aligned with Human Cognitive Principles	Jun 18, 2024	Arithmetic ReasoningCode Generation	CodeCode Available	1
Are Large Language Models Ready for Healthcare? A Comparative Study on Clinical Language Understanding	Apr 9, 2023	Document Classificationnamed-entity-recognition	CodeCode Available	1
HiTab: A Hierarchical Table Dataset for Question Answering and Natural Language Generation	Aug 15, 2021	DescriptiveEntity Alignment	CodeCode Available	1
Does Time Have Its Place? Temporal Heads: Where Language Models Recall Time-specific Information	Feb 20, 2025	Question Answering	CodeCode Available	1
Ditch the Gold Standard: Re-evaluating Conversational Question Answering	Dec 16, 2021	Conversational Question AnsweringQuestion Answering	CodeCode Available	1
HOSMEL: A Hot-Swappable Modularized Entity Linking Toolkit for Chinese	May 1, 2022	Entity LinkingQuestion Answering	CodeCode Available	1
HotpotQA: A Dataset for Diverse, Explainable Multi-hop Question Answering	Sep 25, 2018	Multi-hop Question AnsweringQuestion Answering	CodeCode Available	1
ALaRM: Align Language Models via Hierarchical Rewards Modeling	Mar 11, 2024	Long Form Question AnsweringMachine Translation	CodeCode Available	1
Are Multilingual LLMs Culturally-Diverse Reasoners? An Investigation into Multicultural Proverbs and Sayings	Sep 15, 2023	Question Answering	CodeCode Available	1
Distinguishing Ignorance from Error in LLM Hallucinations	Oct 29, 2024	HallucinationQuestion Answering	CodeCode Available	1
Diversify Question Generation with Retrieval-Augmented Style Transfer	Oct 23, 2023	DiversityQuestion Answering	CodeCode Available	1
How Language Model Hallucinations Can Snowball	May 22, 2023	HallucinationLanguage Modeling	CodeCode Available	1
Distilled Dual-Encoder Model for Vision-Language Understanding	Dec 16, 2021	Image to textmodel	CodeCode Available	1
DistilBERT, a distilled version of BERT: smaller, faster, cheaper and lighter	Oct 2, 2019	Hate Speech DetectionKnowledge Distillation	CodeCode Available	1
How to Get Your LLM to Generate Challenging Problems for Evaluation	Feb 20, 2025	Code CompletionMath	CodeCode Available	1
Distilling Knowledge from Reader to Retriever for Question Answering	Dec 8, 2020	Information RetrievalKnowledge Distillation	CodeCode Available	1
Divide and Conquer: Text Semantic Matching with Disentangled Keywords and Intents	Mar 6, 2022	Community Question AnsweringInformation Retrieval	CodeCode Available	1
Does Vision-and-Language Pretraining Improve Lexical Grounding?	Sep 21, 2021	Question AnsweringVisual Question Answering	CodeCode Available	1
Dual-Key Multimodal Backdoors for Visual Question Answering	Dec 14, 2021	Question AnsweringVisual Question Answering	CodeCode Available	1
Discovering Spatio-Temporal Rationales for Video Question Answering	Jul 22, 2023	Question AnsweringVideo Question Answering	CodeCode Available	1
Hypergraph Transformer: Weakly-supervised Multi-hop Reasoning for Knowledge-based Visual Question Answering	Apr 22, 2022	Question AnsweringVisual Question Answering	CodeCode Available	1
Disentangling 3D Prototypical Networks For Few-Shot Concept Learning	Nov 6, 2020	3D geometry3D Object Detection	CodeCode Available	1
An Empirical Study of Pre-trained Transformers for Arabic Information Extraction	Apr 30, 2020	Cross-Lingual TransferLanguage Modelling	CodeCode Available	1
I Can't Believe There's No Images! Learning Visual Tasks Using only Language Supervision	Nov 17, 2022	Image CaptioningQuestion Answering	CodeCode Available	1
Are Vision Language Models Ready for Clinical Diagnosis? A 3D Medical Benchmark for Tumor-centric Visual Question Answering	May 25, 2025	AnatomyBenchmarking	CodeCode Available	1
Can We Talk Models Into Seeing the World Differently?	Mar 14, 2024	Image CaptioningImage Classification	CodeCode Available	1
Abg-CoQA: Clarifying Ambiguity in Conversational Question Answering	Jun 22, 2021	4kConversational Question Answering	CodeCode Available	1
IMPACT: A Large-scale Integrated Multimodal Patent Analysis and Creation Dataset for Design Patents	Dec 10, 2024	Cross-Modal RetrievalImage Classification	CodeCode Available	1
Discourse Analysis via Questions and Answers: Parsing Dependency Structures of Questions Under Discussion	Oct 12, 2022	Dependency ParsingQuestion Answering	CodeCode Available	1
Improving Factual Consistency of Abstractive Summarization via Question Answering	May 10, 2021	Abstractive Text SummarizationQuestion Answering	CodeCode Available	1
Improving Language Understanding by Generative Pre-Training	Jun 11, 2018	Cloze TestDocument Classification	CodeCode Available	1
DisentQA: Disentangling Parametric and Contextual Knowledge with Counterfactual Question Answering	Nov 10, 2022	counterfactualData Augmentation	CodeCode Available	1
Direct Evaluation of Chain-of-Thought in Multi-hop Reasoning with Knowledge Graphs	Feb 17, 2024	Knowledge GraphsMulti-hop Question Answering	CodeCode Available	1

Show:10 25 50

← PrevPage 19 of 217Next →

All datasets SQuAD2.0 SQuAD1.1 HotpotQA PIQA BoolQ COPA TriviaQA SQuAD1.1 dev Natural Questions OpenBookQA TruthfulQA MultiRC

Benchmark Results

#	Model	Metric	Claimed	Verified	Status
1	IE-Net (ensemble)	EM	90.94	—	Unverified
2	FPNet (ensemble)	EM	90.87	—	Unverified
3	IE-NetV2 (ensemble)	EM	90.86	—	Unverified
4	SA-Net on Albert (ensemble)	EM	90.72	—	Unverified
5	SA-Net-V2 (ensemble)	EM	90.68	—	Unverified
6	FPNet (ensemble)	EM	90.6	—	Unverified
7	Retro-Reader (ensemble)	EM	90.58	—	Unverified
8	EntitySpanFocusV2 (ensemble)	EM	90.52	—	Unverified
9	TransNets + SFVerifier + SFEnsembler (ensemble)	EM	90.49	—	Unverified
10	EntitySpanFocus+AT (ensemble)	EM	90.45	—	Unverified