Question Answering

Question answering can be segmented into domain-specific tasks like community question answering and knowledge-base question answering. Popular benchmark datasets for evaluation question answering systems include SQuAD, HotPotQA, bAbI, TriviaQA, WikiQA, and many others. Models for question answering are typically evaluated on metrics like EM and F1. Some recent top performing models are T5 and XLNet.

( Image credit: SQuAD )

Papers

Recently Added Most Hyped Most Active Needs Verification Most Verified

Showing 4101–4150 of 10817 papers

Title	Date	Tasks	Status
UniPSDA: Unsupervised Pseudo Semantic Data Augmentation for Zero-Shot Cross-Lingual Natural Language Understanding	Jun 24, 2024	Data AugmentationNatural Language Understanding	CodeCode Available
SEAM: A Stochastic Benchmark for Multi-Document Tasks	Jun 23, 2024	coreference-resolutionCoreference Resolution	—Unverified
MR-MLLM: Mutual Reinforcement of Multimodal Comprehension and Vision Perception	Jun 22, 2024	Common Sense ReasoningLanguage Modelling	—Unverified
Towards Retrieval Augmented Generation over Large Video Libraries	Jun 21, 2024	Answer GenerationQuestion Answering	—Unverified
Prompting Whisper for QA-driven Zero-shot End-to-end Spoken Language Understanding	Jun 21, 2024	Cross-corpusDecoder	—Unverified
70B-parameter large language models in Japanese medical question-answering	Jun 21, 2024	Continual PretrainingDomain Adaptation	—Unverified
Tri-VQA: Triangular Reasoning Medical Visual Question Answering for Multi-Attribute Analysis	Jun 21, 2024	AttributeMedical Visual Question Answering	—Unverified
Generate-then-Ground in Retrieval-Augmented Generation for Multi-hop Question Answering	Jun 21, 2024	Multi-hop Question AnsweringQuestion Answering	—Unverified
Sports Intelligence: Assessing the Sports Understanding Capabilities of Language Models through Question Answering from Text to Video	Jun 21, 2024	BenchmarkingFew-Shot Learning	—Unverified
PKU-SafeRLHF: Towards Multi-Level Safety Alignment for LLMs with Human Preference	Jun 20, 2024	Question AnsweringSafety Alignment	—Unverified
TTQA-RS- A break-down prompting approach for Multi-hop Table-Text Question Answering with Reasoning and Summarization	Jun 20, 2024	Information RetrievalQuestion Answering	—Unverified
A Learn-Then-Reason Model Towards Generalization in Knowledge Base Question Answering	Jun 20, 2024	Knowledge Base Question AnsweringLanguage Modelling	—Unverified
The Fire Thief Is Also the Keeper: Balancing Usability and Privacy in Prompts	Jun 20, 2024	Code GenerationQuestion Answering	—Unverified
Robust Few-shot Transfer Learning for Knowledge Base Question Answering with Unanswerable Questions	Jun 20, 2024	Knowledge Base Question AnsweringQuestion Answering	—Unverified
Temporal Knowledge Graph Question Answering: A Survey	Jun 20, 2024	Graph Question AnsweringKnowledge Base Question Answering	—Unverified
Investigating Mysteries of CoT-Augmented Distillation	Jun 20, 2024	Question Answering	—Unverified
Ranking LLMs by compression	Jun 20, 2024	coreference-resolutionCoreference Resolution	—Unverified
Does Object Grounding Really Reduce Hallucination of Large Vision-Language Models?	Jun 20, 2024	Caption GenerationHallucination	—Unverified
Understanding Finetuning for Factual Knowledge Extraction	Jun 20, 2024	MMLUQuestion Answering	—Unverified
VGA: Vision GUI Assistant -- Minimizing Hallucinations through Image-Centric Fine-Tuning	Jun 20, 2024	Image ComprehensionQuestion Answering	CodeCode Available
QPaug: Question and Passage Augmentation for Open-Domain Question Answering of LLMs	Jun 20, 2024	Open-Domain Question AnsweringQuestion Answering	CodeCode Available
SynDARin: Synthesising Datasets for Automated Reasoning in Low-Resource Languages	Jun 20, 2024	Language ModellingLarge Language Model	—Unverified
FoRAG: Factuality-optimized Retrieval Augmented Generation for Web-enhanced Long-form Question Answering	Jun 19, 2024	Answer GenerationForm	—Unverified
Transferable speech-to-text large language model alignment module	Jun 19, 2024	Language ModelingLanguage Modelling	—Unverified
Enhancing Cross-Prompt Transferability in Vision-Language Models through Contextual Injection of Target Tokens	Jun 19, 2024	Caption Generationimage-classification	CodeCode Available
Thread: A Logic-Based Data Organization Paradigm for How-To Question Answering with Retrieval Augmented Generation	Jun 19, 2024	Decision MakingQuestion Answering	—Unverified
Comparison of Open-Source and Proprietary LLMs for Machine Reading Comprehension: A Practical Analysis for Industrial Applications	Jun 19, 2024	BenchmarkingMachine Reading Comprehension	—Unverified
QRMeM: Unleash the Length Limitation through Question then Reflection Memory Mechanism	Jun 19, 2024	Multiple-choiceQuestion Answering	—Unverified
Towards Robust Evaluation: A Comprehensive Taxonomy of Datasets and Metrics for Open Domain Question Answering in the Era of Large Language Models	Jun 19, 2024	BenchmarkingOpen-Domain Question Answering	—Unverified
From RAGs to rich parameters: Probing how language models utilize external knowledge over parametric information for factual queries	Jun 18, 2024	Question AnsweringRAG	—Unverified
PSLM: Parallel Generation of Text and Speech with LLMs for Low-Latency Spoken Dialogue Systems	Jun 18, 2024	Language ModelingLanguage Modelling	—Unverified
Diversify, Rationalize, and Combine: Ensembling Multiple QA Strategies for Zero-shot Knowledge-based VQA	Jun 18, 2024	Question AnsweringVisual Question Answering	CodeCode Available
Problem-Solving in Language Model Networks	Jun 18, 2024	Language ModelingLanguage Modelling	CodeCode Available
Towards Understanding Domain Adapted Sentence Embeddings for Document Retrieval	Jun 18, 2024	Domain AdaptationQuestion Answering	—Unverified
GW-MoE: Resolving Uncertainty in MoE Router with Global Workspace Theory	Jun 18, 2024	Code GenerationMathematical Problem-Solving	CodeCode Available
Nash CoT: Multi-Path Inference with Preference Equilibrium	Jun 18, 2024	DiversityQuestion Answering	CodeCode Available
Exploring the Robustness of Language Models for Tabular Question Answering via Attention Analysis	Jun 18, 2024	In-Context LearningQuestion Answering	—Unverified
Intermediate Distillation: Data-Efficient Distillation from Black-Box LLMs for Information Retrieval	Jun 18, 2024	Information RetrievalKnowledge Distillation	—Unverified
LightPAL: Lightweight Passage Retrieval for Open Domain Multi-Document Summarization	Jun 18, 2024	Document SummarizationLanguage Modelling	—Unverified
Extrinsic Evaluation of Cultural Competence in Large Language Models	Jun 17, 2024	Open-Ended Question AnsweringQuestion Answering	CodeCode Available
RepLiQA: A Question-Answering Dataset for Benchmarking LLMs on Unseen Reference Content	Jun 17, 2024	BenchmarkingGeneral Knowledge	CodeCode Available
Program Synthesis Benchmark for Visual Programming in XLogoOnline Environment	Jun 17, 2024	Logical ReasoningMath	—Unverified
InternalInspector I^2: Robust Confidence Estimation in LLMs through Internal States	Jun 17, 2024	BenchmarkingContrastive Learning	—Unverified
SeRTS: Self-Rewarding Tree Search for Biomedical Retrieval-Augmented Generation	Jun 17, 2024	Question AnsweringRAG	—Unverified
Context Graph	Jun 17, 2024	Knowledge GraphsQuestion Answering	—Unverified
Boosting Scientific Concepts Understanding: Can Analogy from Teacher Models Empower Student Models?	Jun 17, 2024	Question AnsweringSelf-Learning	CodeCode Available
Iterative Utility Judgment Framework via LLMs Inspired by Relevance in Philosophy	Jun 17, 2024	Answer GenerationInformation Retrieval	—Unverified
LLARVA: Vision-Action Instruction Tuning Enhances Robot Learning	Jun 17, 2024	Image CaptioningQuestion Answering	—Unverified
Do Not Design, Learn: A Trainable Scoring Function for Uncertainty Estimation in Generative LLMs	Jun 17, 2024	Question Answering	—Unverified
Hallucination Mitigation Prompts Long-term Video Understanding	Jun 17, 2024	Answer GenerationHallucination	CodeCode Available

Show:10 25 50

← PrevPage 83 of 217Next →

All datasets SQuAD2.0 SQuAD1.1 HotpotQA PIQA BoolQ COPA TriviaQA SQuAD1.1 dev Natural Questions OpenBookQA TruthfulQA MultiRC

Benchmark Results

#	Model	Metric	Claimed	Verified	Status
1	IE-Net (ensemble)	EM	90.94	—	Unverified
2	FPNet (ensemble)	EM	90.87	—	Unverified
3	IE-NetV2 (ensemble)	EM	90.86	—	Unverified
4	SA-Net on Albert (ensemble)	EM	90.72	—	Unverified
5	SA-Net-V2 (ensemble)	EM	90.68	—	Unverified
6	FPNet (ensemble)	EM	90.6	—	Unverified
7	Retro-Reader (ensemble)	EM	90.58	—	Unverified
8	EntitySpanFocusV2 (ensemble)	EM	90.52	—	Unverified
9	TransNets + SFVerifier + SFEnsembler (ensemble)	EM	90.49	—	Unverified
10	EntitySpanFocus+AT (ensemble)	EM	90.45	—	Unverified