Question Answering

Question answering can be segmented into domain-specific tasks like community question answering and knowledge-base question answering. Popular benchmark datasets for evaluation question answering systems include SQuAD, HotPotQA, bAbI, TriviaQA, WikiQA, and many others. Models for question answering are typically evaluated on metrics like EM and F1. Some recent top performing models are T5 and XLNet.

( Image credit: SQuAD )

Papers

Recently Added Most Hyped Most Active Needs Verification Most Verified

Showing 4151–4200 of 10817 papers

Title	Date	Tasks	Status
LLARVA: Vision-Action Instruction Tuning Enhances Robot Learning	Jun 17, 2024	Image CaptioningQuestion Answering	—Unverified
Refiner: Restructure Retrieval Content Efficiently to Advance Question-Answering Capabilities	Jun 17, 2024	Question AnsweringRAG	CodeCode Available
Adaptive Query Rewriting: Aligning Rewriters through Marginal Probability of Conversational Answers	Jun 16, 2024	Conversational Question AnsweringPassage Retrieval	—Unverified
Multi-LLM QA with Embodied Exploration	Jun 16, 2024	Embodied Question AnsweringFeature Importance	—Unverified
Mixture-of-Subspaces in Low-Rank Adaptation	Jun 16, 2024	Common Sense ReasoningImage Generation	CodeCode Available
Identifying Query-Relevant Neurons in Large Language Models for Long-Form Texts	Jun 16, 2024	DecoderForm	CodeCode Available
HiddenTables & PyQTax: A Cooperative Game and Dataset For TableQA to Ensure Scale and Data Privacy Across a Myriad of Taxonomies	Jun 16, 2024	Question Answering	—Unverified
Towards Lifelong Dialogue Agents via Timeline-based Memory Management	Jun 16, 2024	counterfactualManagement	—Unverified
VCEval: Rethinking What is a Good Educational Video and How to Automatically Evaluate It	Jun 15, 2024	Language ModelingLanguage Modelling	—Unverified
On the Hardness of Faithful Chain-of-Thought Reasoning in Large Language Models	Jun 15, 2024	In-Context LearningQuestion Answering	—Unverified
MMLU-SR: A Benchmark for Stress-Testing Reasoning Capability of Large Language Models	Jun 15, 2024	Mathematical ReasoningMMLU	—Unverified
Beyond Raw Videos: Understanding Edited Videos with Large Multimodal Model	Jun 15, 2024	Question AnsweringVideo Understanding	CodeCode Available
Large Language Models as Interpolated and Extrapolated Event Predictors	Jun 15, 2024	Knowledge GraphsQuestion Answering	CodeCode Available
SHMamba: Structured Hyperbolic State Space Model for Audio-Visual Question Answering	Jun 14, 2024	Audio-visual Question AnsweringAudio-Visual Question Answering (AVQA)	—Unverified
Integrating Large Language Models with Graph-based Reasoning for Conversational Question Answering	Jun 14, 2024	Conversational Question AnsweringKnowledge Graphs	—Unverified
CHIRON: Rich Character Representations in Long-Form Narratives	Jun 14, 2024	FormQuestion Answering	CodeCode Available
EWEK-QA: Enhanced Web and Efficient Knowledge Graph Retrieval for Citation-based Question Answering Systems	Jun 14, 2024	Question AnsweringRetrieval	—Unverified
Enhancing Question Answering on Charts Through Effective Pre-training Tasks	Jun 14, 2024	document understandingOptical Character Recognition (OCR)	—Unverified
Efficient Prompting for LLM-based Generative Internet of Things	Jun 14, 2024	Prompt EngineeringQuestion Answering	—Unverified
Precision Empowers, Excess Distracts: Visual Question Answering With Dynamically Infused Knowledge In Language Models	Jun 14, 2024	DecoderKnowledge Graphs	—Unverified
Detecting and Evaluating Medical Hallucinations in Large Vision Language Models	Jun 14, 2024	HallucinationMedical Visual Question Answering	—Unverified
Datasets for Multilingual Answer Sentence Selection	Jun 14, 2024	Language ModelingLanguage Modelling	—Unverified
A Survey of Video Datasets for Grounded Event Understanding	Jun 14, 2024	Common Sense ReasoningEvent Extraction	CodeCode Available
GLiNER multi-task: Generalist Lightweight Model for Various Information Extraction Tasks	Jun 14, 2024	named-entity-recognitionNamed Entity Recognition	—Unverified
A Training-free Sub-quadratic Cost Transformer Model Serving Framework With Hierarchically Pruned Attention	Jun 14, 2024	GPUQuestion Answering	—Unverified
Multi-Modal Retrieval For Large Language Model Based Speech Recognition	Jun 13, 2024	Automatic Speech RecognitionLanguage Modeling	—Unverified
DiscreteSLU: A Large Language Model with Self-Supervised Discrete Speech Units for Spoken Language Understanding	Jun 13, 2024	Instruction FollowingLanguage Modeling	—Unverified
Towards Multilingual Audio-Visual Question Answering	Jun 13, 2024	Audio-visual Question AnsweringAudio-Visual Question Answering (AVQA)	CodeCode Available
Optimizing Visual Question Answering Models for Driving: Bridging the Gap Between Human and Machine Attention Patterns	Jun 13, 2024	Autonomous DrivingQuestion Answering	—Unverified
No perspective, no perception!! Perspective-aware Healthcare Answer Summarization	Jun 13, 2024	Community Question AnsweringQuestion Answering	CodeCode Available
Research Trends for the Interplay between Large Language Models and Knowledge Graphs	Jun 12, 2024	DescriptiveKnowledge Graphs	—Unverified
Prediction of the Realisation of an Information Need: An EEG Study	Jun 12, 2024	EEGInformation Retrieval	—Unverified
Dynamic Stochastic Decoding Strategy for Open-Domain Dialogue Generation	Jun 12, 2024	Dialogue GenerationDiversity	—Unverified
DistilDoc: Knowledge Distillation for Visually-Rich Document Applications	Jun 12, 2024	document-image-classificationDocument Image Classification	—Unverified
Paraphrasing in Affirmative Terms Improves Negation Understanding	Jun 11, 2024	Natural Language InferenceNatural Language Understanding	—Unverified
Efficient Parallel Multi-Hop Reasoning: A Scalable Approach for Knowledge Graph Analysis	Jun 11, 2024	Knowledge Base CompletionKnowledge Graphs	—Unverified
DR-RAG: Applying Dynamic Document Relevance to Retrieval-Augmented Generation for Question-Answering	Jun 11, 2024	Question AnsweringRAG	—Unverified
Scholarly Question Answering using Large Language Models in the NFDI4DataScience Gateway	Jun 11, 2024	Language ModelingLanguage Modelling	CodeCode Available
Benchmarking Vision-Language Contrastive Methods for Medical Representation Learning	Jun 11, 2024	BenchmarkingContrastive Learning	CodeCode Available
MBBQ: A Dataset for Cross-Lingual Comparison of Stereotypes in Generative LLMs	Jun 11, 2024	Question Answering	CodeCode Available
Question-Answering (QA) Model for a Personalized Learning Assistant for Arabic Language	Jun 11, 2024	Question Answering	—Unverified
DARA: Decomposition-Alignment-Reasoning Autonomous Language Agent for Question Answering over Knowledge Graphs	Jun 11, 2024	In-Context LearningKnowledge Graphs	CodeCode Available
HOLMES: Hyper-Relational Knowledge Graphs for Multi-hop Question Answering using LLMs	Jun 10, 2024	Knowledge GraphsMulti-hop Question Answering	—Unverified
MedExQA: Medical Question Answering Benchmark with Multiple Explanations	Jun 10, 2024	Medical Question AnsweringQuestion Answering	CodeCode Available
Solution for SMART-101 Challenge of CVPR Multi-modal Algorithmic Reasoning Task 2024	Jun 10, 2024	Language Modellingobject-detection	—Unverified
Evaluating the Retrieval Component in LLM-Based Question Answering Systems	Jun 10, 2024	Information RetrievalQuestion Answering	—Unverified
Transforming Wearable Data into Health Insights using Large Language Model Agents	Jun 10, 2024	Code GenerationInformation Retrieval	—Unverified
Should We Fine-Tune or RAG? Evaluating Different Techniques to Adapt LLMs for Dialogue	Jun 10, 2024	In-Context LearningQuestion Answering	CodeCode Available
BrainChat: Decoding Semantic Information from fMRI using Vision-language Pretrained Models	Jun 10, 2024	DecoderQuestion Answering	—Unverified
CVQA: Culturally-diverse Multilingual Visual Question Answering Benchmark	Jun 10, 2024	DiversityQuestion Answering	—Unverified

Show:10 25 50

← PrevPage 84 of 217Next →

All datasets SQuAD2.0 SQuAD1.1 HotpotQA PIQA BoolQ COPA TriviaQA SQuAD1.1 dev Natural Questions OpenBookQA TruthfulQA MultiRC

Benchmark Results

#	Model	Metric	Claimed	Verified	Status
1	IE-Net (ensemble)	EM	90.94	—	Unverified
2	FPNet (ensemble)	EM	90.87	—	Unverified
3	IE-NetV2 (ensemble)	EM	90.86	—	Unverified
4	SA-Net on Albert (ensemble)	EM	90.72	—	Unverified
5	SA-Net-V2 (ensemble)	EM	90.68	—	Unverified
6	FPNet (ensemble)	EM	90.6	—	Unverified
7	Retro-Reader (ensemble)	EM	90.58	—	Unverified
8	EntitySpanFocusV2 (ensemble)	EM	90.52	—	Unverified
9	TransNets + SFVerifier + SFEnsembler (ensemble)	EM	90.49	—	Unverified
10	EntitySpanFocus+AT (ensemble)	EM	90.45	—	Unverified