Question Answering

Question answering can be segmented into domain-specific tasks like community question answering and knowledge-base question answering. Popular benchmark datasets for evaluation question answering systems include SQuAD, HotPotQA, bAbI, TriviaQA, WikiQA, and many others. Models for question answering are typically evaluated on metrics like EM and F1. Some recent top performing models are T5 and XLNet.

( Image credit: SQuAD )

Papers

Recently Added Most Hyped Most Active Needs Verification Most Verified

Showing 1051–1075 of 10817 papers

Title	Date	Tasks	Status	Hype
Can MLLMs Generalize to Multi-Party dialog? Exploring Multilingual Response Generation in Complex Scenarios	Jan 20, 2025	Question AnsweringResponse Generation	—Unverified	0
Question-to-Question Retrieval for Hallucination-Free Knowledge Access: An Approach for Wikipedia and Wikidata Question Answering	Jan 20, 2025	Answer GenerationComputational Efficiency	—Unverified	0
Leveraging Chain of Thought towards Empathetic Spoken Dialogue without Corresponding Question-Answering Data	Jan 19, 2025	Dialogue GenerationQuestion Answering	—Unverified	0
A Collection of Question Answering Datasets for Norwegian	Jan 19, 2025	Question AnsweringWorld Knowledge	—Unverified	0
InsQABench: Benchmarking Chinese Insurance Domain Question Answering with Large Language Models	Jan 19, 2025	BenchmarkingQuestion Answering	CodeCode Available	1
A Method for Multi-Hop Question Answering on Persian Knowledge Graph	Jan 18, 2025	Graph Question AnsweringInformation Retrieval	—Unverified	0
Can Multimodal LLMs do Visual Temporal Understanding and Reasoning? The answer is No!	Jan 18, 2025	Multiple-choiceQuestion Answering	—Unverified	0
Class-Imbalanced-Aware Adaptive Dataset Distillation for Scalable Pretrained Model on Credit Scoring	Jan 18, 2025	Dataset DistillationQuestion Answering	—Unverified	0
Tabular-TX: Theme-Explanation Structure-based Table Summarization via In-Context Learning	Jan 17, 2025	In-Context LearningQuestion Answering	—Unverified	0
Passage Segmentation of Documents for Extractive Question Answering	Jan 17, 2025	ChunkingExtractive Question-Answering	—Unverified	0
Dialogue Benchmark Generation from Knowledge Graphs with Cost-Effective Retrieval-Augmented LLMs	Jan 17, 2025	Dialogue GenerationKnowledge Graphs	CodeCode Available	0
Conversational Text Extraction with Large Language Models Using Retrieval-Augmented Systems	Jan 16, 2025	Question AnsweringRAG	—Unverified	0
A Simple Aerial Detection Baseline of Multimodal Language Models	Jan 16, 2025	object-detectionObject Detection	CodeCode Available	2
Algorithm for Semantic Network Generation from Texts of Low Resource Languages Such as Kiswahili	Jan 16, 2025	Question Answering	—Unverified	0
To Retrieve or Not to Retrieve? Uncertainty Detection for Dynamic Retrieval Augmented Generation	Jan 16, 2025	Long Form Question AnsweringQuestion Answering	—Unverified	0
Perspective Transition of Large Language Models for Solving Subjective Tasks	Jan 16, 2025	In-Context LearningQuestion Answering	—Unverified	0
Augmenting a Large Language Model with a Combination of Text and Visual Data for Conversational Visualization of Global Geospatial Data	Jan 16, 2025	Data InteractionDescriptive	—Unverified	0
Double Visual Defense: Adversarial Pre-training and Instruction Tuning for Improving Vision-Language Model Robustness	Jan 16, 2025	Adversarial DefenseAdversarial Robustness	—Unverified	0
Embodied Scene Understanding for Vision Language Models via MetaVQA	Jan 15, 2025	Decision MakingQuestion Answering	—Unverified	0
Towards Multilingual LLM Evaluation for Baltic and Nordic languages: A study on Lithuanian History	Jan 15, 2025	Multiple-choiceQuestion Answering	—Unverified	0
SteLLA: A Structured Grading System Using LLMs with RAG	Jan 15, 2025	Question AnsweringRAG	—Unverified	0
Dynamic Knowledge Integration for Enhanced Vision-Language Reasoning	Jan 15, 2025	Question AnsweringVisual Question Answering	—Unverified	0
Admitting Ignorance Helps the Video Question Answering Models to Answer	Jan 15, 2025	Question AnsweringVideo Question Answering	—Unverified	0
SAR Strikes Back: A New Hope for RSVQA	Jan 14, 2025	Question AnsweringVisual Question Answering	—Unverified	0
Reasoning with Graphs: Structuring Implicit Knowledge to Enhance LLMs Reasoning	Jan 14, 2025	Logical ReasoningMulti-hop Question Answering	—Unverified	0

Show:10 25 50

← PrevPage 43 of 433Next →

All datasets SQuAD2.0 SQuAD1.1 HotpotQA PIQA BoolQ COPA TriviaQA SQuAD1.1 dev Natural Questions OpenBookQA TruthfulQA MultiRC

Benchmark Results

#	Model	Metric	Claimed	Verified	Status
1	IE-Net (ensemble)	EM	90.94	—	Unverified
2	FPNet (ensemble)	EM	90.87	—	Unverified
3	IE-NetV2 (ensemble)	EM	90.86	—	Unverified
4	SA-Net on Albert (ensemble)	EM	90.72	—	Unverified
5	SA-Net-V2 (ensemble)	EM	90.68	—	Unverified
6	FPNet (ensemble)	EM	90.6	—	Unverified
7	Retro-Reader (ensemble)	EM	90.58	—	Unverified
8	EntitySpanFocusV2 (ensemble)	EM	90.52	—	Unverified
9	TransNets + SFVerifier + SFEnsembler (ensemble)	EM	90.49	—	Unverified
10	EntitySpanFocus+AT (ensemble)	EM	90.45	—	Unverified