Question Answering

Question answering can be segmented into domain-specific tasks like community question answering and knowledge-base question answering. Popular benchmark datasets for evaluation question answering systems include SQuAD, HotPotQA, bAbI, TriviaQA, WikiQA, and many others. Models for question answering are typically evaluated on metrics like EM and F1. Some recent top performing models are T5 and XLNet.

( Image credit: SQuAD )

Papers

Recently Added Most Hyped Most Active Needs Verification Most Verified

Showing 1061–1070 of 10817 papers

Title	Date	Tasks	Status	Hype
Dialogue Benchmark Generation from Knowledge Graphs with Cost-Effective Retrieval-Augmented LLMs	Jan 17, 2025	Dialogue GenerationKnowledge Graphs	CodeCode Available	0
Conversational Text Extraction with Large Language Models Using Retrieval-Augmented Systems	Jan 16, 2025	Question AnsweringRAG	—Unverified	0
A Simple Aerial Detection Baseline of Multimodal Language Models	Jan 16, 2025	object-detectionObject Detection	CodeCode Available	2
Algorithm for Semantic Network Generation from Texts of Low Resource Languages Such as Kiswahili	Jan 16, 2025	Question Answering	—Unverified	0
Perspective Transition of Large Language Models for Solving Subjective Tasks	Jan 16, 2025	In-Context LearningQuestion Answering	—Unverified	0
To Retrieve or Not to Retrieve? Uncertainty Detection for Dynamic Retrieval Augmented Generation	Jan 16, 2025	Long Form Question AnsweringQuestion Answering	—Unverified	0
Double Visual Defense: Adversarial Pre-training and Instruction Tuning for Improving Vision-Language Model Robustness	Jan 16, 2025	Adversarial DefenseAdversarial Robustness	—Unverified	0
Augmenting a Large Language Model with a Combination of Text and Visual Data for Conversational Visualization of Global Geospatial Data	Jan 16, 2025	Data InteractionDescriptive	—Unverified	0
Dynamic Knowledge Integration for Enhanced Vision-Language Reasoning	Jan 15, 2025	Question AnsweringVisual Question Answering	—Unverified	0
SteLLA: A Structured Grading System Using LLMs with RAG	Jan 15, 2025	Question AnsweringRAG	—Unverified	0

Show:10 25 50

← PrevPage 107 of 1082Next →

All datasets SQuAD2.0 SQuAD1.1 HotpotQA PIQA BoolQ COPA TriviaQA SQuAD1.1 dev Natural Questions OpenBookQA TruthfulQA MultiRC

Benchmark Results

#	Model	Metric	Claimed	Verified	Status
1	IE-Net (ensemble)	EM	90.94	—	Unverified
2	FPNet (ensemble)	EM	90.87	—	Unverified
3	IE-NetV2 (ensemble)	EM	90.86	—	Unverified
4	SA-Net on Albert (ensemble)	EM	90.72	—	Unverified
5	SA-Net-V2 (ensemble)	EM	90.68	—	Unverified
6	FPNet (ensemble)	EM	90.6	—	Unverified
7	Retro-Reader (ensemble)	EM	90.58	—	Unverified
8	EntitySpanFocusV2 (ensemble)	EM	90.52	—	Unverified
9	TransNets + SFVerifier + SFEnsembler (ensemble)	EM	90.49	—	Unverified
10	EntitySpanFocus+AT (ensemble)	EM	90.45	—	Unverified