Question Answering

Question answering can be segmented into domain-specific tasks like community question answering and knowledge-base question answering. Popular benchmark datasets for evaluation question answering systems include SQuAD, HotPotQA, bAbI, TriviaQA, WikiQA, and many others. Models for question answering are typically evaluated on metrics like EM and F1. Some recent top performing models are T5 and XLNet.

( Image credit: SQuAD )

Papers

Recently Added Most Hyped Most Active Needs Verification Most Verified

Showing 3451–3500 of 10817 papers

Title	Date	Tasks	Status
SaSR-Net: Source-Aware Semantic Representation Network for Enhancing Audio-Visual Question Answering	Nov 7, 2024	Audio-visual Question AnsweringAudio-Visual Question Answering (AVQA)	—Unverified
A Brief History of Named Entity Recognition	Nov 7, 2024	named-entity-recognitionNamed Entity Recognition	—Unverified
Survey on Semantic Interpretation of Tabular Data: Challenges and Directions	Nov 7, 2024	Knowledge GraphsQuestion Answering	—Unverified
M3DocRAG: Multi-modal Retrieval is What You Need for Multi-page Multi-document Understanding	Nov 7, 2024	document understandingOptical Character Recognition	—Unverified
Q-SFT: Q-Learning for Language Models via Supervised Fine-Tuning	Nov 7, 2024	Offline RLPolicy Gradient Methods	—Unverified
Seeing is Deceiving: Exploitation of Visual Pathways in Multi-Modal Language Models	Nov 7, 2024	Adversarial AttackImage Captioning	—Unverified
M3SciQA: A Multi-Modal Multi-Document Scientific QA Benchmark for Evaluating Foundation Models	Nov 6, 2024	Information RetrievalQuestion Answering	—Unverified
NeurIPS 2023 Competition: Privacy Preserving Federated Learning Document VQA	Nov 6, 2024	Federated LearningLanguage Modelling	—Unverified
Medical Adaptation of Large Language and Vision-Language Models: Are We Making Progress?	Nov 6, 2024	Medical Question AnsweringQuestion Answering	CodeCode Available
Select2Plan: Training-Free ICL-Based Planning through VQA and Memory Retrieval	Nov 6, 2024	Autonomous NavigationIn-Context Learning	—Unverified
Lexicalization Is All You Need: Examining the Impact of Lexical Knowledge in a Compositional QALD System	Nov 6, 2024	AllQuestion Answering	CodeCode Available
Multimodal Commonsense Knowledge Distillation for Visual Question Answering	Nov 5, 2024	Knowledge DistillationQuestion Answering	—Unverified
MME-Finance: A Multimodal Finance Benchmark for Expert-level Understanding and Reasoning	Nov 5, 2024	MMEQuestion Answering	—Unverified
Leveraging Large Language Models in Code Question Answering: Baselines and Issues	Nov 5, 2024	Large Language ModelQuestion Answering	CodeCode Available
From Pixels to Prose: Advancing Multi-Modal Language Models for Remote Sensing	Nov 5, 2024	Change DetectionContrastive Learning	—Unverified
VERITAS: A Unified Approach to Reliability Evaluation	Nov 5, 2024	Fact CheckingHallucination	—Unverified
PersianRAG: A Retrieval-Augmented Generation System for Persian Language	Nov 5, 2024	Language ModelingLanguage Modelling	—Unverified
FactTest: Factuality Testing in Large Language Models with Finite-Sample and Distribution-Free Guarantees	Nov 4, 2024	Multiple-choiceQuestion Answering	—Unverified
Can Language Models Enable In-Context Database?	Nov 4, 2024	Question AnsweringRAG	—Unverified
One VLM to Keep it Learning: Generation and Balancing for Data-free Continual Visual Question Answering	Nov 4, 2024	Continual LearningQuestion Answering	—Unverified
AVSS: Layer Importance Evaluation in Large Language Models via Activation Variance-Sparsity Analysis	Nov 4, 2024	Language ModelingLanguage Modelling	—Unverified
Addressing Uncertainty in LLMs to Enhance Reliability in Generative AI	Nov 4, 2024	Conformal PredictionPrediction	—Unverified
A Multi-Task Role-Playing Agent Capable of Imitating Character Linguistic Styles	Nov 4, 2024	Question AnsweringStory Generation	—Unverified
Goal-Oriented Semantic Communication for Wireless Visual Question Answering	Nov 3, 2024	Edge-computingQuestion Answering	—Unverified
RS-MoE: Mixture of Experts for Remote Sensing Image Captioning and Visual Question Answering	Nov 3, 2024	DescriptiveImage Captioning	—Unverified
Diagnosing Medical Datasets with Training Dynamics	Nov 3, 2024	Medical Question AnsweringQuestion Answering	CodeCode Available
A Visual Question Answering Method for SAR Ship: Breaking the Requirement for Multimodal Dataset Construction and Model Fine-Tuning	Nov 3, 2024	object-detectionObject Detection	—Unverified
LoRA-Contextualizing Adaptation of Large Multimodal Models for Long Document Understanding	Nov 2, 2024	document understandingQuestion Answering	—Unverified
Designing a Robust Radiology Report Generation System	Nov 2, 2024	Decision MakingDiagnostic	—Unverified
Enhancing Question Answering Precision with Optimized Vector Retrieval and Instructions	Nov 1, 2024	Document EmbeddingInformation Retrieval	—Unverified
Latent Paraphrasing: Perturbation on Layers Improves Knowledge Injection in Language Models	Nov 1, 2024	DiversityParaphrase Generation	CodeCode Available
Magnitude Pruning of Large Pretrained Transformer Models with a Mixture Gaussian Prior	Nov 1, 2024	Natural Language UnderstandingQuestion Answering	—Unverified
Right this way: Can VLMs Guide Us to See More to Answer Questions?	Nov 1, 2024	Question AnsweringVisual Question Answering	CodeCode Available
Provenance: A Light-weight Fact-checker for Retrieval Augmented LLM Generation Output	Nov 1, 2024	Fact CheckingNatural Language Inference	—Unverified
AttackQA: Development and Adoption of a Dataset for Assisting Cybersecurity Operations using Fine-tuned and Open-Source LLMs	Nov 1, 2024	Question AnsweringRAG	—Unverified
GRS-QA -- Graph Reasoning-Structured Question Answering Dataset	Nov 1, 2024	Multi-hop Question AnsweringQuestion Answering	—Unverified
LEAF: Learning and Evaluation Augmented by Fact-Checking to Improve Factualness in Large Language Models	Oct 31, 2024	Fact CheckingMedical Question Answering	—Unverified
Dynamic Uncertainty Ranking: Enhancing In-Context Learning for Long-Tail Knowledge in LLMs	Oct 31, 2024	In-Context LearningMemorization	—Unverified
JudgeRank: Leveraging Large Language Models for Reasoning-Intensive Reranking	Oct 31, 2024	Code CompletionOpen-Domain Question Answering	—Unverified
SimpsonsVQA: Enhancing Inquiry-Based Learning with a Tailored Dataset	Oct 30, 2024	Question AnsweringVisual Question Answering	—Unverified
BUZZ: Beehive-structured Sparse KV Cache with Segmented Heavy Hitters for Efficient LLM Inference	Oct 30, 2024	Computational EfficiencyQuestion Answering	CodeCode Available
Dynamic Strategy Planning for Efficient Question Answering with Large Language Models	Oct 30, 2024	Multi-hop Question AnsweringQuestion Answering	—Unverified
MDCure: A Scalable Pipeline for Multi-Document Instruction-Following	Oct 30, 2024	ArticlesInstruction Following	CodeCode Available
Improving Uncertainty Quantification in Large Language Models via Semantic Embeddings	Oct 30, 2024	Question AnsweringUncertainty Quantification	—Unverified
Danoliteracy of Generative, Large Language Models	Oct 30, 2024	Question Answering	—Unverified
Symbolic Graph Inference for Compound Scene Understanding	Oct 30, 2024	Question AnsweringScene Understanding	—Unverified
Are VLMs Really Blind	Oct 29, 2024	Language ModelingLanguage Modelling	CodeCode Available
ProMQA: Question Answering Dataset for Multimodal Procedural Activity Understanding	Oct 29, 2024	Action RecognitionAction Segmentation	CodeCode Available
Enhancing Financial Question Answering with a Multi-Agent Reflection Framework	Oct 29, 2024	Question Answering	—Unverified
AAAR-1.0: Assessing AI's Potential to Assist Research	Oct 29, 2024	Question Answering	—Unverified

Show:10 25 50

← PrevPage 70 of 217Next →

All datasets SQuAD2.0 SQuAD1.1 HotpotQA PIQA BoolQ COPA TriviaQA SQuAD1.1 dev Natural Questions OpenBookQA TruthfulQA MultiRC

Benchmark Results

#	Model	Metric	Claimed	Verified	Status
1	IE-Net (ensemble)	EM	90.94	—	Unverified
2	FPNet (ensemble)	EM	90.87	—	Unverified
3	IE-NetV2 (ensemble)	EM	90.86	—	Unverified
4	SA-Net on Albert (ensemble)	EM	90.72	—	Unverified
5	SA-Net-V2 (ensemble)	EM	90.68	—	Unverified
6	FPNet (ensemble)	EM	90.6	—	Unverified
7	Retro-Reader (ensemble)	EM	90.58	—	Unverified
8	EntitySpanFocusV2 (ensemble)	EM	90.52	—	Unverified
9	TransNets + SFVerifier + SFEnsembler (ensemble)	EM	90.49	—	Unverified
10	EntitySpanFocus+AT (ensemble)	EM	90.45	—	Unverified