Question Answering

Question answering can be segmented into domain-specific tasks like community question answering and knowledge-base question answering. Popular benchmark datasets for evaluation question answering systems include SQuAD, HotPotQA, bAbI, TriviaQA, WikiQA, and many others. Models for question answering are typically evaluated on metrics like EM and F1. Some recent top performing models are T5 and XLNet.

( Image credit: SQuAD )

Papers

Recently Added Most Hyped Most Active Needs Verification Most Verified

Showing 2351–2400 of 10817 papers

Title	Date	Tasks	Status	Hype
FoRAG: Factuality-optimized Retrieval Augmented Generation for Web-enhanced Long-form Question Answering	Jun 19, 2024	Answer GenerationForm	—Unverified	0
Enhancing Cross-Prompt Transferability in Vision-Language Models through Contextual Injection of Target Tokens	Jun 19, 2024	Caption Generationimage-classification	CodeCode Available	0
Model Internals-based Answer Attribution for Trustworthy Retrieval-Augmented Generation	Jun 19, 2024	Question AnsweringRAG	CodeCode Available	1
Towards Robust Evaluation: A Comprehensive Taxonomy of Datasets and Metrics for Open Domain Question Answering in the Era of Large Language Models	Jun 19, 2024	BenchmarkingOpen-Domain Question Answering	—Unverified	0
Thread: A Logic-Based Data Organization Paradigm for How-To Question Answering with Retrieval Augmented Generation	Jun 19, 2024	Decision MakingQuestion Answering	—Unverified	0
Factual Confidence of LLMs: on Reliability and Robustness of Current Estimators	Jun 19, 2024	Fact VerificationQuestion Answering	CodeCode Available	1
Nash CoT: Multi-Path Inference with Preference Equilibrium	Jun 18, 2024	DiversityQuestion Answering	CodeCode Available	0
Diversify, Rationalize, and Combine: Ensembling Multiple QA Strategies for Zero-shot Knowledge-based VQA	Jun 18, 2024	Question AnsweringVisual Question Answering	CodeCode Available	0
LightPAL: Lightweight Passage Retrieval for Open Domain Multi-Document Summarization	Jun 18, 2024	Document SummarizationLanguage Modelling	—Unverified	0
Towards Understanding Domain Adapted Sentence Embeddings for Document Retrieval	Jun 18, 2024	Domain AdaptationQuestion Answering	—Unverified	0
Intermediate Distillation: Data-Efficient Distillation from Black-Box LLMs for Information Retrieval	Jun 18, 2024	Information RetrievalKnowledge Distillation	—Unverified	0
VoCo-LLaMA: Towards Vision Compression with Large Language Models	Jun 18, 2024	Computational EfficiencyQuestion Answering	CodeCode Available	3
Hierarchical Prompting Taxonomy: A Universal Evaluation Framework for Large Language Models Aligned with Human Cognitive Principles	Jun 18, 2024	Arithmetic ReasoningCode Generation	CodeCode Available	1
GW-MoE: Resolving Uncertainty in MoE Router with Global Workspace Theory	Jun 18, 2024	Code GenerationMathematical Problem-Solving	CodeCode Available	0
Problem-Solving in Language Model Networks	Jun 18, 2024	Language ModelingLanguage Modelling	CodeCode Available	0
Breaking the Ceiling of the LLM Community by Treating Token Generation as a Classification for Ensembling	Jun 18, 2024	Arithmetic ReasoningLanguage Modeling	CodeCode Available	2
From RAGs to rich parameters: Probing how language models utilize external knowledge over parametric information for factual queries	Jun 18, 2024	Question AnsweringRAG	—Unverified	0
VRSBench: A Versatile Vision-Language Benchmark Dataset for Remote Sensing Image Understanding	Jun 18, 2024	Image CaptioningQuestion Answering	CodeCode Available	2
Exploring the Robustness of Language Models for Tabular Question Answering via Attention Analysis	Jun 18, 2024	In-Context LearningQuestion Answering	—Unverified	0
PSLM: Parallel Generation of Text and Speech with LLMs for Low-Latency Spoken Dialogue Systems	Jun 18, 2024	Language ModelingLanguage Modelling	—Unverified	0
InternalInspector I^2: Robust Confidence Estimation in LLMs through Internal States	Jun 17, 2024	BenchmarkingContrastive Learning	—Unverified	0
Learn Beyond The Answer: Training Language Models with Reflection for Mathematical Reasoning	Jun 17, 2024	Data AugmentationMathematical Reasoning	CodeCode Available	2
Mitigating Large Language Model Hallucination with Faithful Finetuning	Jun 17, 2024	HallucinationLanguage Modeling	—Unverified	0
Extrinsic Evaluation of Cultural Competence in Large Language Models	Jun 17, 2024	Open-Ended Question AnsweringQuestion Answering	CodeCode Available	0
MedCalc-Bench: Evaluating Large Language Models for Medical Calculations	Jun 17, 2024	DescriptiveMedical Diagnosis	CodeCode Available	2
Do Not Design, Learn: A Trainable Scoring Function for Uncertainty Estimation in Generative LLMs	Jun 17, 2024	Question Answering	—Unverified	0
Safety Arithmetic: A Framework for Test-time Safety Alignment of Language Models by Steering Parameters and Activations	Jun 17, 2024	AI and SafetyQuestion Answering	CodeCode Available	1
MMNeuron: Discovering Neuron-Level Domain-Specific Interpretation in Multimodal Large Language Model	Jun 17, 2024	Language ModelingLanguage Modelling	CodeCode Available	1
Soft Prompting for Unlearning in Large Language Models	Jun 17, 2024	In-Context LearningMachine Unlearning	CodeCode Available	1
SeRTS: Self-Rewarding Tree Search for Biomedical Retrieval-Augmented Generation	Jun 17, 2024	Question AnsweringRAG	—Unverified	0
RepLiQA: A Question-Answering Dataset for Benchmarking LLMs on Unseen Reference Content	Jun 17, 2024	BenchmarkingGeneral Knowledge	CodeCode Available	0
ISR-DPO: Aligning Large Multimodal Models for Videos by Iterative Self-Retrospective DPO	Jun 17, 2024	Language ModellingQuestion Answering	CodeCode Available	2
TRACE the Evidence: Constructing Knowledge-Grounded Reasoning Chains for Retrieval-Augmented Generation	Jun 17, 2024	Question AnsweringRAG	CodeCode Available	1
Context Graph	Jun 17, 2024	Knowledge GraphsQuestion Answering	—Unverified	0
Task Me Anything	Jun 17, 2024	2kAttribute	CodeCode Available	2
GAMA: A Large Audio-Language Model with Advanced Audio Understanding and Complex Reasoning Abilities	Jun 17, 2024	Audio Question AnsweringInstruction Following	CodeCode Available	2
Boosting Scientific Concepts Understanding: Can Analogy from Teacher Models Empower Student Models?	Jun 17, 2024	Question AnsweringSelf-Learning	CodeCode Available	0
LLARVA: Vision-Action Instruction Tuning Enhances Robot Learning	Jun 17, 2024	Image CaptioningQuestion Answering	—Unverified	0
Iterative Utility Judgment Framework via LLMs Inspired by Relevance in Philosophy	Jun 17, 2024	Answer GenerationInformation Retrieval	—Unverified	0
Program Synthesis Benchmark for Visual Programming in XLogoOnline Environment	Jun 17, 2024	Logical ReasoningMath	—Unverified	0
AvaTaR: Optimizing LLM Agents for Tool Usage via Contrastive Reasoning	Jun 17, 2024	Language ModelingLanguage Modelling	CodeCode Available	3
MFC-Bench: Benchmarking Multimodal Fact-Checking with Large Vision-Language Models	Jun 17, 2024	BenchmarkingFact Checking	CodeCode Available	1
Hallucination Mitigation Prompts Long-term Video Understanding	Jun 17, 2024	Answer GenerationHallucination	CodeCode Available	0
Refiner: Restructure Retrieval Content Efficiently to Advance Question-Answering Capabilities	Jun 17, 2024	Question AnsweringRAG	CodeCode Available	0
Mixture-of-Subspaces in Low-Rank Adaptation	Jun 16, 2024	Common Sense ReasoningImage Generation	CodeCode Available	0
Adaptive Query Rewriting: Aligning Rewriters through Marginal Probability of Conversational Answers	Jun 16, 2024	Conversational Question AnsweringPassage Retrieval	—Unverified	0
Towards Lifelong Dialogue Agents via Timeline-based Memory Management	Jun 16, 2024	counterfactualManagement	—Unverified	0
Identifying Query-Relevant Neurons in Large Language Models for Long-Form Texts	Jun 16, 2024	DecoderForm	CodeCode Available	0
SCAR: Efficient Instruction-Tuning for Large Language Models via Style Consistency-Aware Response Ranking	Jun 16, 2024	Open-Ended Question AnsweringQuestion Answering	CodeCode Available	1
FoodieQA: A Multimodal Dataset for Fine-Grained Understanding of Chinese Food Culture	Jun 16, 2024	DiversityMultiple-choice	CodeCode Available	1

Show:10 25 50

← PrevPage 48 of 217Next →

All datasets SQuAD2.0 SQuAD1.1 HotpotQA PIQA BoolQ COPA TriviaQA SQuAD1.1 dev Natural Questions OpenBookQA TruthfulQA MultiRC

Benchmark Results

#	Model	Metric	Claimed	Verified	Status
1	IE-Net (ensemble)	EM	90.94	—	Unverified
2	FPNet (ensemble)	EM	90.87	—	Unverified
3	IE-NetV2 (ensemble)	EM	90.86	—	Unverified
4	SA-Net on Albert (ensemble)	EM	90.72	—	Unverified
5	SA-Net-V2 (ensemble)	EM	90.68	—	Unverified
6	FPNet (ensemble)	EM	90.6	—	Unverified
7	Retro-Reader (ensemble)	EM	90.58	—	Unverified
8	EntitySpanFocusV2 (ensemble)	EM	90.52	—	Unverified
9	TransNets + SFVerifier + SFEnsembler (ensemble)	EM	90.49	—	Unverified
10	EntitySpanFocus+AT (ensemble)	EM	90.45	—	Unverified