Question Answering

Question answering can be segmented into domain-specific tasks like community question answering and knowledge-base question answering. Popular benchmark datasets for evaluation question answering systems include SQuAD, HotPotQA, bAbI, TriviaQA, WikiQA, and many others. Models for question answering are typically evaluated on metrics like EM and F1. Some recent top performing models are T5 and XLNet.

( Image credit: SQuAD )

Papers

Recently Added Most Hyped Most Active Needs Verification Most Verified

Showing 4101–4125 of 10817 papers

Title	Date	Tasks	Status
Context-augmented Retrieval: A Novel Framework for Fast Information Retrieval based Response Generation using Large Language Model	Jun 24, 2024	Answer GenerationInformation Retrieval	—Unverified
SEAM: A Stochastic Benchmark for Multi-Document Tasks	Jun 23, 2024	coreference-resolutionCoreference Resolution	—Unverified
MR-MLLM: Mutual Reinforcement of Multimodal Comprehension and Vision Perception	Jun 22, 2024	Common Sense ReasoningLanguage Modelling	—Unverified
Towards Retrieval Augmented Generation over Large Video Libraries	Jun 21, 2024	Answer GenerationQuestion Answering	—Unverified
Tri-VQA: Triangular Reasoning Medical Visual Question Answering for Multi-Attribute Analysis	Jun 21, 2024	AttributeMedical Visual Question Answering	—Unverified
Sports Intelligence: Assessing the Sports Understanding Capabilities of Language Models through Question Answering from Text to Video	Jun 21, 2024	BenchmarkingFew-Shot Learning	—Unverified
70B-parameter large language models in Japanese medical question-answering	Jun 21, 2024	Continual PretrainingDomain Adaptation	—Unverified
Generate-then-Ground in Retrieval-Augmented Generation for Multi-hop Question Answering	Jun 21, 2024	Multi-hop Question AnsweringQuestion Answering	—Unverified
Prompting Whisper for QA-driven Zero-shot End-to-end Spoken Language Understanding	Jun 21, 2024	Cross-corpusDecoder	—Unverified
Temporal Knowledge Graph Question Answering: A Survey	Jun 20, 2024	Graph Question AnsweringKnowledge Base Question Answering	—Unverified
Investigating Mysteries of CoT-Augmented Distillation	Jun 20, 2024	Question Answering	—Unverified
A Learn-Then-Reason Model Towards Generalization in Knowledge Base Question Answering	Jun 20, 2024	Knowledge Base Question AnsweringLanguage Modelling	—Unverified
SynDARin: Synthesising Datasets for Automated Reasoning in Low-Resource Languages	Jun 20, 2024	Language ModellingLarge Language Model	—Unverified
Ranking LLMs by compression	Jun 20, 2024	coreference-resolutionCoreference Resolution	—Unverified
Robust Few-shot Transfer Learning for Knowledge Base Question Answering with Unanswerable Questions	Jun 20, 2024	Knowledge Base Question AnsweringQuestion Answering	—Unverified
PKU-SafeRLHF: Towards Multi-Level Safety Alignment for LLMs with Human Preference	Jun 20, 2024	Question AnsweringSafety Alignment	—Unverified
Does Object Grounding Really Reduce Hallucination of Large Vision-Language Models?	Jun 20, 2024	Caption GenerationHallucination	—Unverified
TTQA-RS- A break-down prompting approach for Multi-hop Table-Text Question Answering with Reasoning and Summarization	Jun 20, 2024	Information RetrievalQuestion Answering	—Unverified
The Fire Thief Is Also the Keeper: Balancing Usability and Privacy in Prompts	Jun 20, 2024	Code GenerationQuestion Answering	—Unverified
QPaug: Question and Passage Augmentation for Open-Domain Question Answering of LLMs	Jun 20, 2024	Open-Domain Question AnsweringQuestion Answering	CodeCode Available
Understanding Finetuning for Factual Knowledge Extraction	Jun 20, 2024	MMLUQuestion Answering	—Unverified
VGA: Vision GUI Assistant -- Minimizing Hallucinations through Image-Centric Fine-Tuning	Jun 20, 2024	Image ComprehensionQuestion Answering	CodeCode Available
FoRAG: Factuality-optimized Retrieval Augmented Generation for Web-enhanced Long-form Question Answering	Jun 19, 2024	Answer GenerationForm	—Unverified
Transferable speech-to-text large language model alignment module	Jun 19, 2024	Language ModelingLanguage Modelling	—Unverified
Thread: A Logic-Based Data Organization Paradigm for How-To Question Answering with Retrieval Augmented Generation	Jun 19, 2024	Decision MakingQuestion Answering	—Unverified

Show:10 25 50

← PrevPage 165 of 433Next →

All datasets SQuAD2.0 SQuAD1.1 HotpotQA PIQA BoolQ COPA TriviaQA SQuAD1.1 dev Natural Questions OpenBookQA TruthfulQA MultiRC

Benchmark Results

#	Model	Metric	Claimed	Verified	Status
1	IE-Net (ensemble)	EM	90.94	—	Unverified
2	FPNet (ensemble)	EM	90.87	—	Unverified
3	IE-NetV2 (ensemble)	EM	90.86	—	Unverified
4	SA-Net on Albert (ensemble)	EM	90.72	—	Unverified
5	SA-Net-V2 (ensemble)	EM	90.68	—	Unverified
6	FPNet (ensemble)	EM	90.6	—	Unverified
7	Retro-Reader (ensemble)	EM	90.58	—	Unverified
8	EntitySpanFocusV2 (ensemble)	EM	90.52	—	Unverified
9	TransNets + SFVerifier + SFEnsembler (ensemble)	EM	90.49	—	Unverified
10	EntitySpanFocus+AT (ensemble)	EM	90.45	—	Unverified