Question Answering

Question answering can be segmented into domain-specific tasks like community question answering and knowledge-base question answering. Popular benchmark datasets for evaluation question answering systems include SQuAD, HotPotQA, bAbI, TriviaQA, WikiQA, and many others. Models for question answering are typically evaluated on metrics like EM and F1. Some recent top performing models are T5 and XLNet.

( Image credit: SQuAD )

Papers

Recently Added Most Hyped Most Active Needs Verification Most Verified

Showing 901–950 of 10817 papers

Title	Date	Tasks	Status	Hype
SuRe: Summarizing Retrievals using Answer Candidates for Open-domain QA of LLMs	Apr 17, 2024	Question AnsweringRetrieval	CodeCode Available	1
Spiral of Silence: How is Large Language Model Killing Information Retrieval? -- A Case Study on Open Domain Question Answering	Apr 16, 2024	Information RetrievalLanguage Modeling	CodeCode Available	1
ClashEval: Quantifying the tug-of-war between an LLM's internal prior and external evidence	Apr 16, 2024	Question AnsweringRAG	CodeCode Available	1
Constructing Benchmarks and Interventions for Combating Hallucinations in LLMs	Apr 15, 2024	HallucinationLanguage Modeling	CodeCode Available	1
TabSQLify: Enhancing Reasoning Capabilities of LLMs Through Table Decomposition	Apr 15, 2024	Natural Language UnderstandingQuestion Answering	CodeCode Available	1
TextCoT: Zoom In for Enhanced Multimodal Text-Rich Image Understanding	Apr 15, 2024	Question AnsweringVisual Question Answering (VQA)	CodeCode Available	1
CuriousLLM: Elevating Multi-Document QA with Reasoning-Infused Knowledge Graph Prompting	Apr 13, 2024	HallucinationKnowledge Graphs	CodeCode Available	1
Enhancing Visual Question Answering through Question-Driven Image Captions as Prompts	Apr 12, 2024	Image CaptioningQuestion Answering	CodeCode Available	1
OpenBias: Open-set Bias Detection in Text-to-Image Generative Models	Apr 11, 2024	Bias DetectionFairness	CodeCode Available	1
CBR-RAG: Case-Based Reasoning for Retrieval Augmented Generation in LLMs for Legal Question Answering	Apr 4, 2024	Language ModelingLanguage Modelling	CodeCode Available	1
Multi-Granularity Guided Fusion-in-Decoder	Apr 3, 2024	DecoderMulti-Task Learning	CodeCode Available	1
CLAPNQ: Cohesive Long-form Answers from Passages in Natural Questions for RAG systems	Apr 2, 2024	FormLong Form Question Answering	CodeCode Available	1
CausalChaos! Dataset for Comprehensive Causal Action Question Answering Over Longer Causal Chains Grounded in Dynamic Visual Scenes	Apr 1, 2024	Causal DiscoveryCausal Discovery in Video Reasoning	CodeCode Available	1
TraveLER: A Modular Multi-LMM Agent Framework for Video Question-Answering	Apr 1, 2024	Question AnsweringVideo Question Answering	CodeCode Available	1
Linguistic Calibration of Long-Form Generations	Mar 30, 2024	Decision MakingForm	CodeCode Available	1
Retrieval-enhanced Knowledge Editing in Language Models for Multi-Hop Question Answering	Mar 28, 2024	HallucinationIn-Context Learning	CodeCode Available	1
JDocQA: Japanese Document Question Answering Dataset for Generative Language Models	Mar 28, 2024	HallucinationQuestion Answering	CodeCode Available	1
TriviaHG: A Dataset for Automatic Hint Generation from Factoid Questions	Mar 27, 2024	Hint GenerationInformation Retrieval	CodeCode Available	1
Quantifying and Mitigating Unimodal Biases in Multimodal Large Language Models: A Causal Perspective	Mar 27, 2024	Question AnsweringVisual Question Answering	CodeCode Available	1
Non-Linear Inference Time Intervention: Improving LLM Truthfulness	Mar 27, 2024	Large Language ModelMultiple-choice	CodeCode Available	1
ChroniclingAmericaQA: A Large-scale Question Answering Dataset based on Historical American Newspaper Pages	Mar 26, 2024	Machine Reading ComprehensionOptical Character Recognition (OCR)	CodeCode Available	1
ArabicaQA: A Comprehensive Dataset for Arabic Question Answering	Mar 26, 2024	BenchmarkingMachine Reading Comprehension	CodeCode Available	1
Attribute First, then Generate: Locally-attributable Grounded Text Generation	Mar 25, 2024	AttributeDocument Summarization	CodeCode Available	1
Language Repository for Long Video Understanding	Mar 21, 2024	EgoSchemaQuestion Answering	CodeCode Available	1
Multi-Agent VQA: Exploring Multi-Agent Foundation Models in Zero-Shot Visual Question Answering	Mar 21, 2024	object-detectionObject Detection	CodeCode Available	1
NovelQA: Benchmarking Question Answering on Documents Exceeding 200K Tokens	Mar 18, 2024	BenchmarkingQuestion Answering	CodeCode Available	1
SQ-LLaVA: Self-Questioning for Large Vision-Language Assistant	Mar 17, 2024	Language ModellingQuestion Answering	CodeCode Available	1
Forward Learning of Graph Neural Networks	Mar 16, 2024	Drug DiscoveryGraph Learning	CodeCode Available	1
ChartInstruct: Instruction Tuning for Chart Comprehension and Reasoning	Mar 14, 2024	Chart UnderstandingInstruction Following	CodeCode Available	1
Can We Talk Models Into Seeing the World Differently?	Mar 14, 2024	Image CaptioningImage Classification	CodeCode Available	1
Transformers Get Stable: An End-to-End Signal Propagation Theory for Language Models	Mar 14, 2024	Decoderimage-classification	CodeCode Available	1
Retrieval augmented text-to-SQL generation for epidemiological question answering using electronic health records	Mar 14, 2024	Question AnsweringRAG	CodeCode Available	1
DAM: Dynamic Adapter Merging for Continual Video QA Learning	Mar 13, 2024	Continual Learningimage-classification	CodeCode Available	1
Beyond Memorization: The Challenge of Random Memory Access in Language Models	Mar 12, 2024	MemorizationOpen-Domain Question Answering	CodeCode Available	1
Complex Reasoning over Logical Queries on Commonsense Knowledge Graphs	Mar 12, 2024	Knowledge GraphsMultiple-choice	CodeCode Available	1
ALaRM: Align Language Models via Hierarchical Rewards Modeling	Mar 11, 2024	Long Form Question AnsweringMachine Translation	CodeCode Available	1
InfiBench: Evaluating the Question-Answering Capabilities of Code Large Language Models	Mar 11, 2024	Code GenerationHumanEval	CodeCode Available	1
Calibrating Large Language Models Using Their Generations Only	Mar 9, 2024	Question AnsweringText Generation	CodeCode Available	1
Can't Remember Details in Long Documents? You Need Some R&R	Mar 8, 2024	Question Answering	CodeCode Available	1
Bias-Augmented Consistency Training Reduces Biased Reasoning in Chain-of-Thought	Mar 8, 2024	Language ModelingLanguage Modelling	CodeCode Available	1
Harnessing Multi-Role Capabilities of Large Language Models for Open-Domain Question Answering	Mar 8, 2024	Answer GenerationOpen-Domain Question Answering	CodeCode Available	1
To Generate or to Retrieve? On the Effectiveness of Artificial Contexts for Medical Open-Domain Question Answering	Mar 4, 2024	MedQAMMLU	CodeCode Available	1
Brilla AI: AI Contestant for the National Science and Maths Quiz	Mar 4, 2024	MathQuestion Answering	CodeCode Available	1
CR-LT-KGQA: A Knowledge Graph Question Answering Dataset Requiring Commonsense Reasoning and Long-Tail Knowledge	Mar 3, 2024	Claim VerificationGraph Question Answering	CodeCode Available	1
Let LLMs Take on the Latest Challenges! A Chinese Dynamic Question Answering Benchmark	Feb 29, 2024	Question Answering	CodeCode Available	1
Benchmarking Large Language Models on Answering and Explaining Challenging Medical Questions	Feb 28, 2024	BenchmarkingMultiple-choice	CodeCode Available	1
Characterizing Truthfulness in Large Language Model Generations with Local Intrinsic Dimension	Feb 28, 2024	Language ModelingLanguage Modelling	CodeCode Available	1
Evaluating Very Long-Term Conversational Memory of LLM Agents	Feb 27, 2024	AvgDialogue Generation	CodeCode Available	1
NextLevelBERT: Masked Language Modeling with Higher-Level Representations for Long Documents	Feb 27, 2024	Document ClassificationLanguage Modeling	CodeCode Available	1
Can LLM Generate Culturally Relevant Commonsense QA Data? Case Study in Indonesian and Sundanese	Feb 27, 2024	General KnowledgeQuestion Answering	CodeCode Available	1

Show:10 25 50

← PrevPage 19 of 217Next →

All datasets SQuAD2.0 SQuAD1.1 HotpotQA PIQA BoolQ COPA TriviaQA SQuAD1.1 dev Natural Questions OpenBookQA TruthfulQA MultiRC

Benchmark Results

#	Model	Metric	Claimed	Verified	Status
1	IE-Net (ensemble)	EM	90.94	—	Unverified
2	FPNet (ensemble)	EM	90.87	—	Unverified
3	IE-NetV2 (ensemble)	EM	90.86	—	Unverified
4	SA-Net on Albert (ensemble)	EM	90.72	—	Unverified
5	SA-Net-V2 (ensemble)	EM	90.68	—	Unverified
6	FPNet (ensemble)	EM	90.6	—	Unverified
7	Retro-Reader (ensemble)	EM	90.58	—	Unverified
8	EntitySpanFocusV2 (ensemble)	EM	90.52	—	Unverified
9	TransNets + SFVerifier + SFEnsembler (ensemble)	EM	90.49	—	Unverified
10	EntitySpanFocus+AT (ensemble)	EM	90.45	—	Unverified