Question Answering

Question answering can be segmented into domain-specific tasks like community question answering and knowledge-base question answering. Popular benchmark datasets for evaluation question answering systems include SQuAD, HotPotQA, bAbI, TriviaQA, WikiQA, and many others. Models for question answering are typically evaluated on metrics like EM and F1. Some recent top performing models are T5 and XLNet.

( Image credit: SQuAD )

Papers

Recently Added Most Hyped Most Active Needs Verification Most Verified

Showing 3301–3350 of 10817 papers

Title	Date	Tasks	Status	Score
Enhancing Cross-Prompt Transferability in Vision-Language Models through Contextual Injection of Target Tokens	Jun 19, 2024	Caption Generationimage-classification	CodeCode Available	5
Building a Non-Trivial Paraphrase Corpus Using Multiple Machine Translation Systems	Jul 1, 2017	Information RetrievalMachine Translation	CodeCode Available	5
"John is 50 years old, can his son be 65?" Evaluating NLP Models' Understanding of Feasibility	Oct 14, 2022	Binary ClassificationQuestion Answering	CodeCode Available	5
PQA: Zero-shot Protein Question Answering for Free-form Scientific Enquiry with Large Language Models	Feb 21, 2024	BenchmarkingForm	CodeCode Available	5
Joint Answering and Explanation for Visual Commonsense Reasoning	Feb 25, 2022	Knowledge DistillationQuestion Answering	CodeCode Available	5
cViL: Cross-Lingual Training of Vision-Language Models using Knowledge Distillation	Jun 7, 2022	Knowledge DistillationQuestion Answering	CodeCode Available	5
Ancient Wisdom, Modern Tools: Exploring Retrieval-Augmented LLMs for Ancient Indian Philosophy	Aug 21, 2024	Information RetrievalLong Form Question Answering	CodeCode Available	5
JNLP Team: Deep Learning for Legal Processing in COLIEE 2020	Nov 4, 2020	Deep LearningInformation Retrieval	CodeCode Available	5
Building a Swedish Question-Answering Model	Jun 1, 2020	Machine Translationmodel	CodeCode Available	5
Enhancing Healthcare LLM Trust with Atypical Presentations Recalibration	Sep 5, 2024	Decision MakingMedical Question Answering	CodeCode Available	5
Joint Learning of Answer Selection and Answer Summary Generation in Community Question Answering	Nov 22, 2019	Answer SelectionCommunity Question Answering	CodeCode Available	5
Customized Retrieval Augmented Generation and Benchmarking for EDA Tool Documentation QA	Jul 22, 2024	BenchmarkingContrastive Learning	CodeCode Available	5
A Dual-Attention Learning Network with Word and Sentence Embedding for Medical Visual Question Answering	Oct 1, 2022	Medical Visual Question AnsweringQuestion Answering	CodeCode Available	5
JMLR: Joint Medical LLM and Retrieval Training for Enhancing Reasoning and Professional Question Answering Capability	Feb 27, 2024	GPUInformation Retrieval	CodeCode Available	5
IUCM at SemEval-2018 Task 11: Similar-Topic Texts as a Comprehension Knowledge Source	Jun 1, 2018	ClusteringLemmatization	CodeCode Available	5
Jack the Reader -- A Machine Reading Framework	Jul 1, 2018	ArticlesInformation Retrieval	CodeCode Available	5
Probabilistic Assumptions Matter: Improved Models for Distantly-Supervised Document-Level Question Answering	May 5, 2020	Extractive Question-AnsweringQuestion Answering	CodeCode Available	5
Probabilistic Embeddings for Frozen Vision-Language Models: Uncertainty Quantification with Gaussian Process Latent Variable Models	May 8, 2025	Active Learningcross-modal alignment	CodeCode Available	5
Iterative Alternating Neural Attention for Machine Reading	Jun 7, 2016	ArticlesQuestion Answering	CodeCode Available	5
Problem-Solving in Language Model Networks	Jun 18, 2024	Language ModelingLanguage Modelling	CodeCode Available	5
Is this Change the Answer to that Problem? Correlating Descriptions of Bug and Code Changes for Evaluating Patch Correctness	Aug 8, 2022	Question Answering	CodeCode Available	5
Is That Your Final Answer? Test-Time Scaling Improves Selective Question Answering	Feb 19, 2025	Question Answering	CodeCode Available	5
Task-Adaptive Tokenization: Enhancing Long-Form Text Generation Efficacy in Mental Health and Beyond	Oct 9, 2023	FormQuestion Answering	CodeCode Available	5
ANTIQUE: A Non-Factoid Question Answering Benchmark	May 22, 2019	Community Question AnsweringInformation Retrieval	CodeCode Available	5
CulFiT: A Fine-grained Cultural-aware LLM Training Paradigm via Multilingual Critique Data Synthesis	May 26, 2025	DiversityOpen-Ended Question Answering	CodeCode Available	5
CUE: An Uncertainty Interpretation Framework for Text Classifiers Built on Pre-Trained Language Models	Jun 6, 2023	Emotion ClassificationLinguistic Acceptability	CodeCode Available	5
Adopting Two Supervisors for Efficient Use of Large-Scale Remote Deep Neural Networks	Apr 5, 2023	image-classificationImage Classification	CodeCode Available	5
Joint Visual and Text Prompting for Improved Object-Centric Perception with Multimodal Large Language Models	Apr 6, 2024	MMEObject	CodeCode Available	5
IRGAN: A Minimax Game for Unifying Generative and Discriminative Information Retrieval Models	May 30, 2017	Ad-Hoc Information RetrievalDocument Ranking	CodeCode Available	5
Enhancing Paraphrase Type Generation: The Impact of DPO and RLHF Evaluated with Human-Ranked Data	May 28, 2025	Machine TranslationParaphrase Generation	CodeCode Available	5
ISCAS at SemEval-2020 Task 5: Pre-trained Transformers for Counterfactual Statement Modeling	Sep 17, 2020	counterfactualQuestion Answering	CodeCode Available	5
IQ-VQA: Intelligent Visual Question Answering	Jul 8, 2020	Question AnsweringVisual Question Answering	CodeCode Available	5
iREL at SemEval-2024 Task 9: Improving Conventional Prompting Methods for Brain Teasers	May 25, 2024	Common Sense ReasoningMultiple-choice	CodeCode Available	5
Is Multimodal Vision Supervision Beneficial to Language?	Feb 10, 2023	Image RetrievalNatural Language Understanding	CodeCode Available	5
iParaphrasing: Extracting Visually Grounded Paraphrases via an Image	Jun 12, 2018	Image CaptioningQuestion Answering	CodeCode Available	5
Investigating the Shortcomings of LLMs in Step-by-Step Legal Reasoning	Feb 8, 2025	Legal ReasoningMultiple-choice	CodeCode Available	5
IQA: Interactive Query Construction in Semantic Question Answering Systems	Jun 20, 2020	Question Answering	CodeCode Available	5
Protecting multimodal large language models against misleading visualizations	Feb 27, 2025	Language ModelingLanguage Modelling	CodeCode Available	5
ISQA: Informative Factuality Feedback for Scientific Summarization	Apr 20, 2024	Question Answering	CodeCode Available	5
CSS: Contrastive Semantic Similarity for Uncertainty Quantification of LLMs	Jun 5, 2024	ClusteringNatural Language Inference	CodeCode Available	5
Enhancing Retrieval in QA Systems with Derived Feature Association	Oct 2, 2024	Question AnsweringRAG	CodeCode Available	5
PSYCHIC: A Neuro-Symbolic Framework for Knowledge Graph Question-Answering Grounding	Oct 19, 2023	Entity LinkingGraph Question Answering	CodeCode Available	5
Introducing MathQA -- A Math-Aware Question Answering System	Jun 28, 2019	MathQuestion Answering	CodeCode Available	5
Investigating Post-pretraining Representation Alignment for Cross-Lingual Question Answering	Sep 24, 2021	Cross-Lingual Question AnsweringQuestion Answering	CodeCode Available	5
Auto-hMDS: Automatic Construction of a Large Heterogeneous Multilingual Multi-Document Summarization Corpus	May 1, 2018	Abstractive Text SummarizationDocument Summarization	CodeCode Available	5
IntKB: A Verifiable Interactive Framework for Knowledge Base Completion	Dec 1, 2020	Knowledge Base CompletionQuestion Answering	CodeCode Available	5
InterroLang: Exploring NLP Models and Datasets through Dialogue-based Explanations	Oct 9, 2023	Dialogue Act ClassificationHate Speech Detection	CodeCode Available	5
Intrinsic Subgraph Generation for Interpretable Graph based Visual Question Answering	Mar 26, 2024	Decision MakingExplainable artificial intelligence	CodeCode Available	5
Knowledge Base Index Compression via Dimensionality and Precision Reduction	Apr 6, 2022	Dimensionality ReductionQuestion Answering	CodeCode Available	5
Leveraging QA Datasets to Improve Generative Data Augmentation	May 25, 2022	Common Sense ReasoningData Augmentation	CodeCode Available	5

Show:10 25 50

← PrevPage 67 of 217Next →

All datasets SQuAD2.0 SQuAD1.1 HotpotQA PIQA BoolQ COPA TriviaQA SQuAD1.1 dev Natural Questions OpenBookQA TruthfulQA MultiRC

Benchmark Results

#	Model	Metric	Claimed	Verified	Status
1	IE-Net (ensemble)	EM	90.94	—	Unverified
2	FPNet (ensemble)	EM	90.87	—	Unverified
3	IE-NetV2 (ensemble)	EM	90.86	—	Unverified
4	SA-Net on Albert (ensemble)	EM	90.72	—	Unverified
5	SA-Net-V2 (ensemble)	EM	90.68	—	Unverified
6	FPNet (ensemble)	EM	90.6	—	Unverified
7	Retro-Reader (ensemble)	EM	90.58	—	Unverified
8	EntitySpanFocusV2 (ensemble)	EM	90.52	—	Unverified
9	TransNets + SFVerifier + SFEnsembler (ensemble)	EM	90.49	—	Unverified
10	EntitySpanFocus+AT (ensemble)	EM	90.45	—	Unverified