Question Answering

Question answering can be segmented into domain-specific tasks like community question answering and knowledge-base question answering. Popular benchmark datasets for evaluation question answering systems include SQuAD, HotPotQA, bAbI, TriviaQA, WikiQA, and many others. Models for question answering are typically evaluated on metrics like EM and F1. Some recent top performing models are T5 and XLNet.

( Image credit: SQuAD )

Papers

Recently Added Most Hyped Most Active Needs Verification Most Verified

Showing 1501–1525 of 10817 papers

Title	Date	Tasks	Status	Hype
MILU: A Multi-task Indic Language Understanding Benchmark	Nov 4, 2024	Multiple-choiceQuestion Answering	CodeCode Available	1
FactTest: Factuality Testing in Large Language Models with Finite-Sample and Distribution-Free Guarantees	Nov 4, 2024	Multiple-choiceQuestion Answering	—Unverified	0
AVSS: Layer Importance Evaluation in Large Language Models via Activation Variance-Sparsity Analysis	Nov 4, 2024	Language ModelingLanguage Modelling	—Unverified	0
A Multi-Task Role-Playing Agent Capable of Imitating Character Linguistic Styles	Nov 4, 2024	Question AnsweringStory Generation	—Unverified	0
One VLM to Keep it Learning: Generation and Balancing for Data-free Continual Visual Question Answering	Nov 4, 2024	Continual LearningQuestion Answering	—Unverified	0
Can Language Models Enable In-Context Database?	Nov 4, 2024	Question AnsweringRAG	—Unverified	0
Addressing Uncertainty in LLMs to Enhance Reliability in Generative AI	Nov 4, 2024	Conformal PredictionPrediction	—Unverified	0
Goal-Oriented Semantic Communication for Wireless Visual Question Answering	Nov 3, 2024	Edge-computingQuestion Answering	—Unverified	0
A Visual Question Answering Method for SAR Ship: Breaking the Requirement for Multimodal Dataset Construction and Model Fine-Tuning	Nov 3, 2024	object-detectionObject Detection	—Unverified	0
RS-MoE: Mixture of Experts for Remote Sensing Image Captioning and Visual Question Answering	Nov 3, 2024	DescriptiveImage Captioning	—Unverified	0
Diagnosing Medical Datasets with Training Dynamics	Nov 3, 2024	Medical Question AnsweringQuestion Answering	CodeCode Available	0
Designing a Robust Radiology Report Generation System	Nov 2, 2024	Decision MakingDiagnostic	—Unverified	0
LoRA-Contextualizing Adaptation of Large Multimodal Models for Long Document Understanding	Nov 2, 2024	document understandingQuestion Answering	—Unverified	0
GRS-QA -- Graph Reasoning-Structured Question Answering Dataset	Nov 1, 2024	Multi-hop Question AnsweringQuestion Answering	—Unverified	0
Enhancing Question Answering Precision with Optimized Vector Retrieval and Instructions	Nov 1, 2024	Document EmbeddingInformation Retrieval	—Unverified	0
Provenance: A Light-weight Fact-checker for Retrieval Augmented LLM Generation Output	Nov 1, 2024	Fact CheckingNatural Language Inference	—Unverified	0
Magnitude Pruning of Large Pretrained Transformer Models with a Mixture Gaussian Prior	Nov 1, 2024	Natural Language UnderstandingQuestion Answering	—Unverified	0
Rationale-Guided Retrieval Augmented Generation for Medical Question Answering	Nov 1, 2024	Medical Question AnsweringQuestion Answering	CodeCode Available	1
Right this way: Can VLMs Guide Us to See More to Answer Questions?	Nov 1, 2024	Question AnsweringVisual Question Answering	CodeCode Available	0
Latent Paraphrasing: Perturbation on Layers Improves Knowledge Injection in Language Models	Nov 1, 2024	DiversityParaphrase Generation	CodeCode Available	0
AttackQA: Development and Adoption of a Dataset for Assisting Cybersecurity Operations using Fine-tuned and Open-Source LLMs	Nov 1, 2024	Question AnsweringRAG	—Unverified	0
Birdie: Advancing State Space Models with Reward-Driven Objectives and Curricula	Nov 1, 2024	Computational EfficiencyQuestion Answering	CodeCode Available	1
JudgeRank: Leveraging Large Language Models for Reasoning-Intensive Reranking	Oct 31, 2024	Code CompletionOpen-Domain Question Answering	—Unverified	0
Show Me What and Where has Changed? Question Answering and Grounding for Remote Sensing Change Detection	Oct 31, 2024	Change DetectionQuestion Answering	CodeCode Available	1
Dynamic Uncertainty Ranking: Enhancing In-Context Learning for Long-Tail Knowledge in LLMs	Oct 31, 2024	In-Context LearningMemorization	—Unverified	0

Show:10 25 50

← PrevPage 61 of 433Next →

All datasets SQuAD2.0 SQuAD1.1 HotpotQA PIQA BoolQ COPA TriviaQA SQuAD1.1 dev Natural Questions OpenBookQA TruthfulQA MultiRC

Benchmark Results

#	Model	Metric	Claimed	Verified	Status
1	IE-Net (ensemble)	EM	90.94	—	Unverified
2	FPNet (ensemble)	EM	90.87	—	Unverified
3	IE-NetV2 (ensemble)	EM	90.86	—	Unverified
4	SA-Net on Albert (ensemble)	EM	90.72	—	Unverified
5	SA-Net-V2 (ensemble)	EM	90.68	—	Unverified
6	FPNet (ensemble)	EM	90.6	—	Unverified
7	Retro-Reader (ensemble)	EM	90.58	—	Unverified
8	EntitySpanFocusV2 (ensemble)	EM	90.52	—	Unverified
9	TransNets + SFVerifier + SFEnsembler (ensemble)	EM	90.49	—	Unverified
10	EntitySpanFocus+AT (ensemble)	EM	90.45	—	Unverified