Question Answering

Question answering can be segmented into domain-specific tasks like community question answering and knowledge-base question answering. Popular benchmark datasets for evaluation question answering systems include SQuAD, HotPotQA, bAbI, TriviaQA, WikiQA, and many others. Models for question answering are typically evaluated on metrics like EM and F1. Some recent top performing models are T5 and XLNet.

( Image credit: SQuAD )

Papers

Recently Added Most Hyped Most Active Needs Verification Most Verified

Showing 1501–1550 of 10817 papers

Title	Date	Tasks	Status	Hype
AVSS: Layer Importance Evaluation in Large Language Models via Activation Variance-Sparsity Analysis	Nov 4, 2024	Language ModelingLanguage Modelling	—Unverified	0
FactTest: Factuality Testing in Large Language Models with Finite-Sample and Distribution-Free Guarantees	Nov 4, 2024	Multiple-choiceQuestion Answering	—Unverified	0
A Multi-Task Role-Playing Agent Capable of Imitating Character Linguistic Styles	Nov 4, 2024	Question AnsweringStory Generation	—Unverified	0
MILU: A Multi-task Indic Language Understanding Benchmark	Nov 4, 2024	Multiple-choiceQuestion Answering	CodeCode Available	1
One VLM to Keep it Learning: Generation and Balancing for Data-free Continual Visual Question Answering	Nov 4, 2024	Continual LearningQuestion Answering	—Unverified	0
Can Language Models Enable In-Context Database?	Nov 4, 2024	Question AnsweringRAG	—Unverified	0
Addressing Uncertainty in LLMs to Enhance Reliability in Generative AI	Nov 4, 2024	Conformal PredictionPrediction	—Unverified	0
Goal-Oriented Semantic Communication for Wireless Visual Question Answering	Nov 3, 2024	Edge-computingQuestion Answering	—Unverified	0
RS-MoE: Mixture of Experts for Remote Sensing Image Captioning and Visual Question Answering	Nov 3, 2024	DescriptiveImage Captioning	—Unverified	0
A Visual Question Answering Method for SAR Ship: Breaking the Requirement for Multimodal Dataset Construction and Model Fine-Tuning	Nov 3, 2024	object-detectionObject Detection	—Unverified	0
Diagnosing Medical Datasets with Training Dynamics	Nov 3, 2024	Medical Question AnsweringQuestion Answering	CodeCode Available	0
LoRA-Contextualizing Adaptation of Large Multimodal Models for Long Document Understanding	Nov 2, 2024	document understandingQuestion Answering	—Unverified	0
Designing a Robust Radiology Report Generation System	Nov 2, 2024	Decision MakingDiagnostic	—Unverified	0
Rationale-Guided Retrieval Augmented Generation for Medical Question Answering	Nov 1, 2024	Medical Question AnsweringQuestion Answering	CodeCode Available	1
Enhancing Question Answering Precision with Optimized Vector Retrieval and Instructions	Nov 1, 2024	Document EmbeddingInformation Retrieval	—Unverified	0
Magnitude Pruning of Large Pretrained Transformer Models with a Mixture Gaussian Prior	Nov 1, 2024	Natural Language UnderstandingQuestion Answering	—Unverified	0
GRS-QA -- Graph Reasoning-Structured Question Answering Dataset	Nov 1, 2024	Multi-hop Question AnsweringQuestion Answering	—Unverified	0
Provenance: A Light-weight Fact-checker for Retrieval Augmented LLM Generation Output	Nov 1, 2024	Fact CheckingNatural Language Inference	—Unverified	0
Latent Paraphrasing: Perturbation on Layers Improves Knowledge Injection in Language Models	Nov 1, 2024	DiversityParaphrase Generation	CodeCode Available	0
Right this way: Can VLMs Guide Us to See More to Answer Questions?	Nov 1, 2024	Question AnsweringVisual Question Answering	CodeCode Available	0
AttackQA: Development and Adoption of a Dataset for Assisting Cybersecurity Operations using Fine-tuned and Open-Source LLMs	Nov 1, 2024	Question AnsweringRAG	—Unverified	0
Birdie: Advancing State Space Models with Reward-Driven Objectives and Curricula	Nov 1, 2024	Computational EfficiencyQuestion Answering	CodeCode Available	1
JudgeRank: Leveraging Large Language Models for Reasoning-Intensive Reranking	Oct 31, 2024	Code CompletionOpen-Domain Question Answering	—Unverified	0
Dynamic Uncertainty Ranking: Enhancing In-Context Learning for Long-Tail Knowledge in LLMs	Oct 31, 2024	In-Context LearningMemorization	—Unverified	0
Show Me What and Where has Changed? Question Answering and Grounding for Remote Sensing Change Detection	Oct 31, 2024	Change DetectionQuestion Answering	CodeCode Available	1
Nearest Neighbor Normalization Improves Multimodal Retrieval	Oct 31, 2024	Cross-Modal RetrievalImage Captioning	CodeCode Available	1
LEAF: Learning and Evaluation Augmented by Fact-Checking to Improve Factualness in Large Language Models	Oct 31, 2024	Fact CheckingMedical Question Answering	—Unverified	0
MDCure: A Scalable Pipeline for Multi-Document Instruction-Following	Oct 30, 2024	ArticlesInstruction Following	CodeCode Available	0
Symbolic Graph Inference for Compound Scene Understanding	Oct 30, 2024	Question AnsweringScene Understanding	—Unverified	0
SimpsonsVQA: Enhancing Inquiry-Based Learning with a Tailored Dataset	Oct 30, 2024	Question AnsweringVisual Question Answering	—Unverified	0
Danoliteracy of Generative, Large Language Models	Oct 30, 2024	Question Answering	—Unverified	0
Dynamic Strategy Planning for Efficient Question Answering with Large Language Models	Oct 30, 2024	Multi-hop Question AnsweringQuestion Answering	—Unverified	0
Improving Uncertainty Quantification in Large Language Models via Semantic Embeddings	Oct 30, 2024	Question AnsweringUncertainty Quantification	—Unverified	0
BUZZ: Beehive-structured Sparse KV Cache with Segmented Heavy Hitters for Efficient LLM Inference	Oct 30, 2024	Computational EfficiencyQuestion Answering	CodeCode Available	0
Multi-Agent Large Language Models for Conversational Task-Solving	Oct 30, 2024	FairnessQuestion Answering	CodeCode Available	2
NeuroSym-BioCAT: Leveraging Neuro-Symbolic Methods for Biomedical Scholarly Document Categorization and Question Answering	Oct 29, 2024	Question Answering	—Unverified	0
GRADE: Quantifying Sample Diversity in Text-to-Image Models	Oct 29, 2024	AttributeDiversity	—Unverified	0
RealCQA-V2 : Visual Premise Proving A Manual COT Dataset for Charts	Oct 29, 2024	Chart Question AnsweringQuestion Answering	—Unverified	0
AAAR-1.0: Assessing AI's Potential to Assist Research	Oct 29, 2024	Question Answering	—Unverified	0
Synthetic Data Generation with Large Language Models for Personalized Community Question Answering	Oct 29, 2024	Community Question AnsweringInformation Retrieval	CodeCode Available	0
Distinguishing Ignorance from Error in LLM Hallucinations	Oct 29, 2024	HallucinationQuestion Answering	CodeCode Available	1
Are VLMs Really Blind	Oct 29, 2024	Language ModelingLanguage Modelling	CodeCode Available	0
Knowledge-Guided Prompt Learning for Request Quality Assurance in Public Code Review	Oct 29, 2024	Prompt LearningQuestion Answering	CodeCode Available	0
Enhancing Financial Question Answering with a Multi-Agent Reflection Framework	Oct 29, 2024	Question Answering	—Unverified	0
ProMQA: Question Answering Dataset for Multimodal Procedural Activity Understanding	Oct 29, 2024	Action RecognitionAction Segmentation	CodeCode Available	0
Few-Shot Multimodal Explanation for Visual Question Answering	Oct 28, 2024	Explainable artificial intelligenceExplainable Artificial Intelligence (XAI)	CodeCode Available	0
SandboxAQ's submission to MRL 2024 Shared Task on Multi-lingual Multi-task Information Retrieval	Oct 28, 2024	Information RetrievalMultilingual Named Entity Recognition	—Unverified	0
Large Language Model Benchmarks in Medical Tasks	Oct 28, 2024	Image CaptioningLanguage Modeling	—Unverified	0
CT2C-QA: Multimodal Question Answering over Chinese Text, Table and Chart	Oct 28, 2024	Question Answering	—Unverified	0
Resilience in Knowledge Graph Embeddings	Oct 28, 2024	Graph EmbeddingInformation Retrieval	—Unverified	0

Show:10 25 50

← PrevPage 31 of 217Next →

All datasets SQuAD2.0 SQuAD1.1 HotpotQA PIQA BoolQ COPA TriviaQA SQuAD1.1 dev Natural Questions OpenBookQA TruthfulQA MultiRC

Benchmark Results

#	Model	Metric	Claimed	Verified	Status
1	IE-Net (ensemble)	EM	90.94	—	Unverified
2	FPNet (ensemble)	EM	90.87	—	Unverified
3	IE-NetV2 (ensemble)	EM	90.86	—	Unverified
4	SA-Net on Albert (ensemble)	EM	90.72	—	Unverified
5	SA-Net-V2 (ensemble)	EM	90.68	—	Unverified
6	FPNet (ensemble)	EM	90.6	—	Unverified
7	Retro-Reader (ensemble)	EM	90.58	—	Unverified
8	EntitySpanFocusV2 (ensemble)	EM	90.52	—	Unverified
9	TransNets + SFVerifier + SFEnsembler (ensemble)	EM	90.49	—	Unverified
10	EntitySpanFocus+AT (ensemble)	EM	90.45	—	Unverified