Question Answering

Question answering can be segmented into domain-specific tasks like community question answering and knowledge-base question answering. Popular benchmark datasets for evaluation question answering systems include SQuAD, HotPotQA, bAbI, TriviaQA, WikiQA, and many others. Models for question answering are typically evaluated on metrics like EM and F1. Some recent top performing models are T5 and XLNet.

( Image credit: SQuAD )

Papers

Recently Added Most Hyped Most Active Needs Verification Most Verified

Showing 2301–2350 of 10817 papers

Title	Date	Tasks	Status	Hype
Modulating Language Model Experiences through Frictions	Jun 24, 2024	FrictionInformation Retrieval	—Unverified	0
Claude 3.5 Sonnet Model Card Addendum	Jun 24, 2024	Code GenerationMMR total	—Unverified	0
Training-Free Exponential Context Extension via Cascading KV Cache	Jun 24, 2024	Book summarizationComputational Efficiency	CodeCode Available	0
MM-SpuBench: Towards Better Understanding of Spurious Biases in Multimodal LLMs	Jun 24, 2024	Question AnsweringVisual Question Answering	—Unverified	0
DEXTER: A Benchmark for open-domain Complex Question Answering using LLMs	Jun 24, 2024	Question AnsweringRetrieval	CodeCode Available	1
Attention Instruction: Amplifying Attention in the Middle via Prompting	Jun 24, 2024	PositionQuestion Answering	CodeCode Available	0
GPT-4V Explorations: Mining Autonomous Driving	Jun 24, 2024	Autonomous DrivingDecision Making	—Unverified	0
UniPSDA: Unsupervised Pseudo Semantic Data Augmentation for Zero-Shot Cross-Lingual Natural Language Understanding	Jun 24, 2024	Data AugmentationNatural Language Understanding	CodeCode Available	0
Directed Domain Fine-Tuning: Tailoring Separate Modalities for Specific Training Tasks	Jun 24, 2024	Question AnsweringText Generation	—Unverified	0
Is your benchmark truly adversarial? AdvScore: Evaluating Human-Grounded Adversarialness	Jun 24, 2024	Language ModelingLanguage Modelling	—Unverified	0
LLMs Assist NLP Researchers: Critique Paper (Meta-)Reviewing	Jun 24, 2024	Question Answering	CodeCode Available	1
Context-augmented Retrieval: A Novel Framework for Fast Information Retrieval based Response Generation using Large Language Model	Jun 24, 2024	Answer GenerationInformation Retrieval	—Unverified	0
SEAM: A Stochastic Benchmark for Multi-Document Tasks	Jun 23, 2024	coreference-resolutionCoreference Resolution	—Unverified	0
HCQA @ Ego4D EgoSchema Challenge 2024	Jun 22, 2024	Caption Generation	CodeCode Available	1
MR-MLLM: Mutual Reinforcement of Multimodal Comprehension and Vision Perception	Jun 22, 2024	Common Sense ReasoningLanguage Modelling	—Unverified	0
TorchSpatial: A Location Encoding Framework and Benchmark for Spatial Representation Learning	Jun 21, 2024	FairnessGeographic Question Answering	CodeCode Available	2
70B-parameter large language models in Japanese medical question-answering	Jun 21, 2024	Continual PretrainingDomain Adaptation	—Unverified	0
Generate-then-Ground in Retrieval-Augmented Generation for Multi-hop Question Answering	Jun 21, 2024	Multi-hop Question AnsweringQuestion Answering	—Unverified	0
UDA: A Benchmark Suite for Retrieval Augmented Generation in Real-world Document Analysis	Jun 21, 2024	Question AnsweringRAG	CodeCode Available	1
Towards Retrieval Augmented Generation over Large Video Libraries	Jun 21, 2024	Answer GenerationQuestion Answering	—Unverified	0
Tri-VQA: Triangular Reasoning Medical Visual Question Answering for Multi-Attribute Analysis	Jun 21, 2024	AttributeMedical Visual Question Answering	—Unverified	0
Prompting Whisper for QA-driven Zero-shot End-to-end Spoken Language Understanding	Jun 21, 2024	Cross-corpusDecoder	—Unverified	0
Sports Intelligence: Assessing the Sports Understanding Capabilities of Language Models through Question Answering from Text to Video	Jun 21, 2024	BenchmarkingFew-Shot Learning	—Unverified	0
PKU-SafeRLHF: Towards Multi-Level Safety Alignment for LLMs with Human Preference	Jun 20, 2024	Question AnsweringSafety Alignment	—Unverified	0
Understanding Finetuning for Factual Knowledge Extraction	Jun 20, 2024	MMLUQuestion Answering	—Unverified	0
A Learn-Then-Reason Model Towards Generalization in Knowledge Base Question Answering	Jun 20, 2024	Knowledge Base Question AnsweringLanguage Modelling	—Unverified	0
TTQA-RS- A break-down prompting approach for Multi-hop Table-Text Question Answering with Reasoning and Summarization	Jun 20, 2024	Information RetrievalQuestion Answering	—Unverified	0
SuperGLEBer: German Language Understanding Evaluation Benchmark	Jun 20, 2024	Document ClassificationNatural Language Understanding	CodeCode Available	1
TAGLAS: An atlas of text-attributed graph datasets in the era of large graph and language models	Jun 20, 2024	Graph Question AnsweringNode Classification	CodeCode Available	2
Evaluating RAG-Fusion with RAGElo: an Automated Elo-based Framework	Jun 20, 2024	HallucinationQuestion Answering	CodeCode Available	2
VGA: Vision GUI Assistant -- Minimizing Hallucinations through Image-Centric Fine-Tuning	Jun 20, 2024	Image ComprehensionQuestion Answering	CodeCode Available	0
LLaSA: A Multimodal LLM for Human Activity Analysis Through Wearable and Smartphone Sensors	Jun 20, 2024	16kInstruction Following	CodeCode Available	1
Investigating Mysteries of CoT-Augmented Distillation	Jun 20, 2024	Question Answering	—Unverified	0
Does Object Grounding Really Reduce Hallucination of Large Vision-Language Models?	Jun 20, 2024	Caption GenerationHallucination	—Unverified	0
Ranking LLMs by compression	Jun 20, 2024	coreference-resolutionCoreference Resolution	—Unverified	0
SynDARin: Synthesising Datasets for Automated Reasoning in Low-Resource Languages	Jun 20, 2024	Language ModellingLarge Language Model	—Unverified	0
The Fire Thief Is Also the Keeper: Balancing Usability and Privacy in Prompts	Jun 20, 2024	Code GenerationQuestion Answering	—Unverified	0
QPaug: Question and Passage Augmentation for Open-Domain Question Answering of LLMs	Jun 20, 2024	Open-Domain Question AnsweringQuestion Answering	CodeCode Available	0
Learning to Plan for Retrieval-Augmented Large Language Models from Knowledge Graphs	Jun 20, 2024	Knowledge DistillationKnowledge Graphs	CodeCode Available	1
Temporal Knowledge Graph Question Answering: A Survey	Jun 20, 2024	Graph Question AnsweringKnowledge Base Question Answering	—Unverified	0
Timo: Towards Better Temporal Reasoning for Language Models	Jun 20, 2024	Question Answering	CodeCode Available	1
Robust Few-shot Transfer Learning for Knowledge Base Question Answering with Unanswerable Questions	Jun 20, 2024	Knowledge Base Question AnsweringQuestion Answering	—Unverified	0
Detecting hallucinations in large language models using semantic entropy	Jun 19, 2024	Large Language ModelQuestion Answering	CodeCode Available	3
LIVE: Learnable In-Context Vector for Visual Question Answering	Jun 19, 2024	In-Context LearningQuestion Answering	CodeCode Available	1
QRMeM: Unleash the Length Limitation through Question then Reflection Memory Mechanism	Jun 19, 2024	Multiple-choiceQuestion Answering	—Unverified	0
Transferable speech-to-text large language model alignment module	Jun 19, 2024	Language ModelingLanguage Modelling	—Unverified	0
MoreHopQA: More Than Multi-hop Reasoning	Jun 19, 2024	Question Answering	CodeCode Available	1
AlanaVLM: A Multimodal Embodied AI Foundation Model for Egocentric Video Understanding	Jun 19, 2024	Question AnsweringSpatial Reasoning	CodeCode Available	1
Factual Confidence of LLMs: on Reliability and Robustness of Current Estimators	Jun 19, 2024	Fact VerificationQuestion Answering	CodeCode Available	1
Model Internals-based Answer Attribution for Trustworthy Retrieval-Augmented Generation	Jun 19, 2024	Question AnsweringRAG	CodeCode Available	1

Show:10 25 50

← PrevPage 47 of 217Next →

All datasets SQuAD2.0 SQuAD1.1 HotpotQA PIQA BoolQ COPA TriviaQA SQuAD1.1 dev Natural Questions OpenBookQA TruthfulQA MultiRC

Benchmark Results

#	Model	Metric	Claimed	Verified	Status
1	IE-Net (ensemble)	EM	90.94	—	Unverified
2	FPNet (ensemble)	EM	90.87	—	Unverified
3	IE-NetV2 (ensemble)	EM	90.86	—	Unverified
4	SA-Net on Albert (ensemble)	EM	90.72	—	Unverified
5	SA-Net-V2 (ensemble)	EM	90.68	—	Unverified
6	FPNet (ensemble)	EM	90.6	—	Unverified
7	Retro-Reader (ensemble)	EM	90.58	—	Unverified
8	EntitySpanFocusV2 (ensemble)	EM	90.52	—	Unverified
9	TransNets + SFVerifier + SFEnsembler (ensemble)	EM	90.49	—	Unverified
10	EntitySpanFocus+AT (ensemble)	EM	90.45	—	Unverified