Question Answering

Question answering can be segmented into domain-specific tasks like community question answering and knowledge-base question answering. Popular benchmark datasets for evaluation question answering systems include SQuAD, HotPotQA, bAbI, TriviaQA, WikiQA, and many others. Models for question answering are typically evaluated on metrics like EM and F1. Some recent top performing models are T5 and XLNet.

( Image credit: SQuAD )

Papers

Recently Added Most Hyped Most Active Needs Verification Most Verified

Showing 4101–4150 of 10817 papers

Title	Date	Tasks	Status	Hype
No Length Left Behind: Enhancing Knowledge Tracing for Modeling Sequences of Excessive or Insufficient Lengths	Aug 7, 2023	Knowledge TracingQuestion Answering	CodeCode Available	0
Mondrian: Prompt Abstraction Attack Against Large Language Models for Cheaper API Pricing	Aug 7, 2023	Language ModellingLarge Language Model	—Unverified	0
KITLM: Domain-Specific Knowledge InTegration into Language Models for Question Answering	Aug 7, 2023	Language ModelingLanguage Modelling	CodeCode Available	1
SciGraphQA: A Large-Scale Synthetic Multi-Turn Question-Answering Dataset for Scientific Graphs	Aug 7, 2023	Question AnsweringVisual Question Answering	CodeCode Available	1
Redundancy-aware Transformer for Video Question Answering	Aug 7, 2023	Question AnsweringVideo Question Answering	—Unverified	0
TARJAMAT: Evaluation of Bard and ChatGPT on Machine Translation of Ten Arabic Varieties	Aug 6, 2023	Dialogue GenerationMachine Translation	—Unverified	0
Building Safe and Reliable AI systems for Safety Critical Tasks with Vision-Language Processing	Aug 6, 2023	Image CaptioningOut of Distribution (OOD) Detection	—Unverified	0
Embedding-based Retrieval with LLM for Effective Agriculture Information Extracting from Unstructured Data	Aug 6, 2023	Language ModelingLanguage Modelling	—Unverified	0
Decision Knowledge Graphs: Construction of and Usage in Question Answering for Clinical Practice Guidelines	Aug 6, 2023	Knowledge GraphsQuestion Answering	—Unverified	0
A criterion for Artificial General Intelligence: hypothetic-deductive reasoning, tested on ChatGPT	Aug 5, 2023	ChatbotQuestion Answering	—Unverified	0
EduChat: A Large-Scale Language Model-based Chatbot System for Intelligent Education	Aug 5, 2023	ChatbotLanguage Modeling	CodeCode Available	2
Towards Generalist Foundation Model for Radiology by Leveraging Web-scale 2D&3D Medical Data	Aug 4, 2023	Question AnsweringVisual Question Answering	CodeCode Available	2
Learning to Select the Relevant History Turns in Conversational Question Answering	Aug 4, 2023	Binary ClassificationConversational Question Answering	—Unverified	0
ConceptLab: Creative Concept Generation using VLM-Guided Diffusion Prior Constraints	Aug 3, 2023	Image GenerationLanguage Modelling	CodeCode Available	2
The All-Seeing Project: Towards Panoptic Visual Recognition and Understanding of the Open World	Aug 3, 2023	AllQuestion Answering	CodeCode Available	2
Baby's CoThought: Leveraging Large Language Models for Enhanced Reasoning in Compact Models	Aug 3, 2023	In-Context LearningNatural Language Understanding	CodeCode Available	1
RealCQA: Scientific Chart Question Answering as a Test-bed for First-Order Logic	Aug 3, 2023	Chart Question AnsweringFormal Logic	CodeCode Available	0
Teaching Smaller Language Models To Generalise To Unseen Compositional Questions	Aug 2, 2023	ARCInformation Retrieval	CodeCode Available	0
ELIXR: Towards a general purpose X-ray artificial intelligence system through alignment of large language models and radiology vision encoders	Aug 2, 2023	Contrastive LearningQuestion Answering	—Unverified	0
SelfCheck: Using LLMs to Zero-Shot Check Their Own Step-by-Step Reasoning	Aug 1, 2023	GSM8KMath	CodeCode Available	1
Designing a Communication Bridge between Communities: Participatory Design for a Question-Answering AI Agent	Aug 1, 2023	AI AgentQuestion Answering	—Unverified	0
ReCoMIF: Reading comprehension based multi-source information fusion network for Chinese spoken language understanding	Aug 1, 2023	Intent DetectionMultiple-choice	CodeCode Available	0
No that's not what I meant: Handling Third Position Repair in Conversational Question Answering	Jul 31, 2023	Conversational Question AnsweringPosition	CodeCode Available	0
AsdKB: A Chinese Knowledge Base for the Early Screening and Diagnosis of Autism Spectrum Disorder	Jul 31, 2023	DiagnosticQuestion Answering	—Unverified	0
Evaluating Correctness and Faithfulness of Instruction-Following Models for Question Answering	Jul 31, 2023	Instruction FollowingQuestion Answering	CodeCode Available	1
MovieChat: From Dense Token to Sparse Memory for Long Video Understanding	Jul 31, 2023	Multiple-choiceQuestion Answering	CodeCode Available	2
KoBBQ: Korean Bias Benchmark for Question Answering	Jul 31, 2023	Question Answering	—Unverified	0
Question Answering with Deep Neural Networks for Semi-Structured Heterogeneous Genealogical Knowledge Graphs	Jul 30, 2023	Knowledge GraphsQuestion Answering	—Unverified	0
Around the GLOBE: Numerical Aggregation Question-Answering on Heterogeneous Genealogical Knowledge Graphs with Deep Neural Networks	Jul 30, 2023	Dataset GenerationKnowledge Graphs	—Unverified	0
Synthesizing Event-centric Knowledge Graphs of Daily Activities Using Virtual Space	Jul 30, 2023	Decision MakingEmbodied Question Answering	CodeCode Available	1
Text Analysis Using Deep Neural Networks in Digital Humanities and Information Science	Jul 30, 2023	Domain AdaptationQuestion Answering	—Unverified	0
RT-2: Vision-Language-Action Models Transfer Web Knowledge to Robotic Control	Jul 28, 2023	ObjectQuestion Answering	CodeCode Available	2
An Overview Of Temporal Commonsense Reasoning and Acquisition	Jul 28, 2023	Common Sense ReasoningLanguage Modelling	—Unverified	0
Context-VQA: Towards Context-Aware and Purposeful Visual Question Answering	Jul 28, 2023	Question AnsweringVisual Question Answering	CodeCode Available	0
Universal Recurrent Event Memories for Streaming Data	Jul 28, 2023	Question AnsweringTime Series	—Unverified	0
BARTPhoBEiT: Pre-trained Sequence-to-Sequence and Image Transformers Models for Vietnamese Visual Question Answering	Jul 28, 2023	Question AnsweringVietnamese Visual Question Answering	—Unverified	0
Med-Flamingo: a Multimodal Medical Few-shot Learner	Jul 27, 2023	Medical Visual Question AnsweringQuestion Answering	CodeCode Available	2
Towards Generalist Biomedical AI	Jul 26, 2023	Medical Question AnsweringQuestion Answering	—Unverified	0
LOIS: Looking Out of Instance Semantics for Visual Question Answering	Jul 26, 2023	Question AnsweringVisual Question Answering	—Unverified	0
Contributions to the Improvement of Question Answering Systems in the Biomedical Domain	Jul 25, 2023	Passage RetrievalQuestion Answering	—Unverified	0
GPT-3 Models are Few-Shot Financial Reasoners	Jul 25, 2023	Financial AnalysisPrompt Engineering	—Unverified	0
Keyword-Aware Relative Spatio-Temporal Graph Networks for Video Question Answering	Jul 25, 2023	graph constructionQuestion Answering	—Unverified	0
Analyzing Chain-of-Thought Prompting in Large Language Models via Gradient-based Feature Attributions	Jul 25, 2023	Question Answering	—Unverified	0
3D-LLM: Injecting the 3D World into Large Language Models	Jul 24, 2023	3D Object Captioning3D Question Answering (3D-QA)	CodeCode Available	3
CommonsenseVIS: Visualizing and Understanding Commonsense Reasoning Capabilities of Natural Language Models	Jul 23, 2023	Question AnsweringRelational Reasoning	—Unverified	0
Fast Knowledge Graph Completion using Graphics Processing Units	Jul 22, 2023	Graph EmbeddingKnowledge Graph Completion	—Unverified	0
Expert Knowledge-Aware Image Difference Graph Representation Learning for Difference-Aware Medical Visual Question Answering	Jul 22, 2023	Graph Representation LearningLanguage Modeling	CodeCode Available	1
Discovering Spatio-Temporal Rationales for Video Question Answering	Jul 22, 2023	Question AnsweringVideo Question Answering	CodeCode Available	1
A Zero-shot and Few-shot Study of Instruction-Finetuned Large Language Models Applied to Clinical and Biomedical Tasks	Jul 22, 2023	named-entity-recognitionNamed Entity Recognition	—Unverified	0
Psy-LLM: Scaling up Global Mental Health Psychological Services with AI-based Large Language Models	Jul 22, 2023	ArticlesQuestion Answering	—Unverified	0

Show:10 25 50

← PrevPage 83 of 217Next →

All datasets SQuAD2.0 SQuAD1.1 HotpotQA PIQA BoolQ COPA TriviaQA SQuAD1.1 dev Natural Questions OpenBookQA TruthfulQA MultiRC

Benchmark Results

#	Model	Metric	Claimed	Verified	Status
1	IE-Net (ensemble)	EM	90.94	—	Unverified
2	FPNet (ensemble)	EM	90.87	—	Unverified
3	IE-NetV2 (ensemble)	EM	90.86	—	Unverified
4	SA-Net on Albert (ensemble)	EM	90.72	—	Unverified
5	SA-Net-V2 (ensemble)	EM	90.68	—	Unverified
6	FPNet (ensemble)	EM	90.6	—	Unverified
7	Retro-Reader (ensemble)	EM	90.58	—	Unverified
8	EntitySpanFocusV2 (ensemble)	EM	90.52	—	Unverified
9	TransNets + SFVerifier + SFEnsembler (ensemble)	EM	90.49	—	Unverified
10	EntitySpanFocus+AT (ensemble)	EM	90.45	—	Unverified