Question Answering

Question answering can be segmented into domain-specific tasks like community question answering and knowledge-base question answering. Popular benchmark datasets for evaluation question answering systems include SQuAD, HotPotQA, bAbI, TriviaQA, WikiQA, and many others. Models for question answering are typically evaluated on metrics like EM and F1. Some recent top performing models are T5 and XLNet.

( Image credit: SQuAD )

Papers

Recently Added Most Hyped Most Active Needs Verification Most Verified

Showing 5351–5400 of 10817 papers

Title	Date	Tasks	Status
TARJAMAT: Evaluation of Bard and ChatGPT on Machine Translation of Ten Arabic Varieties	Aug 6, 2023	Dialogue GenerationMachine Translation	—Unverified
Building Safe and Reliable AI systems for Safety Critical Tasks with Vision-Language Processing	Aug 6, 2023	Image CaptioningOut of Distribution (OOD) Detection	—Unverified
Embedding-based Retrieval with LLM for Effective Agriculture Information Extracting from Unstructured Data	Aug 6, 2023	Language ModelingLanguage Modelling	—Unverified
Decision Knowledge Graphs: Construction of and Usage in Question Answering for Clinical Practice Guidelines	Aug 6, 2023	Knowledge GraphsQuestion Answering	—Unverified
A criterion for Artificial General Intelligence: hypothetic-deductive reasoning, tested on ChatGPT	Aug 5, 2023	ChatbotQuestion Answering	—Unverified
Learning to Select the Relevant History Turns in Conversational Question Answering	Aug 4, 2023	Binary ClassificationConversational Question Answering	—Unverified
RealCQA: Scientific Chart Question Answering as a Test-bed for First-Order Logic	Aug 3, 2023	Chart Question AnsweringFormal Logic	CodeCode Available
ELIXR: Towards a general purpose X-ray artificial intelligence system through alignment of large language models and radiology vision encoders	Aug 2, 2023	Contrastive LearningQuestion Answering	—Unverified
Teaching Smaller Language Models To Generalise To Unseen Compositional Questions	Aug 2, 2023	ARCInformation Retrieval	CodeCode Available
Designing a Communication Bridge between Communities: Participatory Design for a Question-Answering AI Agent	Aug 1, 2023	AI AgentQuestion Answering	—Unverified
ReCoMIF: Reading comprehension based multi-source information fusion network for Chinese spoken language understanding	Aug 1, 2023	Intent DetectionMultiple-choice	CodeCode Available
AsdKB: A Chinese Knowledge Base for the Early Screening and Diagnosis of Autism Spectrum Disorder	Jul 31, 2023	DiagnosticQuestion Answering	—Unverified
KoBBQ: Korean Bias Benchmark for Question Answering	Jul 31, 2023	Question Answering	—Unverified
No that's not what I meant: Handling Third Position Repair in Conversational Question Answering	Jul 31, 2023	Conversational Question AnsweringPosition	CodeCode Available
Around the GLOBE: Numerical Aggregation Question-Answering on Heterogeneous Genealogical Knowledge Graphs with Deep Neural Networks	Jul 30, 2023	Dataset GenerationKnowledge Graphs	—Unverified
Text Analysis Using Deep Neural Networks in Digital Humanities and Information Science	Jul 30, 2023	Domain AdaptationQuestion Answering	—Unverified
Question Answering with Deep Neural Networks for Semi-Structured Heterogeneous Genealogical Knowledge Graphs	Jul 30, 2023	Knowledge GraphsQuestion Answering	—Unverified
An Overview Of Temporal Commonsense Reasoning and Acquisition	Jul 28, 2023	Common Sense ReasoningLanguage Modelling	—Unverified
BARTPhoBEiT: Pre-trained Sequence-to-Sequence and Image Transformers Models for Vietnamese Visual Question Answering	Jul 28, 2023	Question AnsweringVietnamese Visual Question Answering	—Unverified
Universal Recurrent Event Memories for Streaming Data	Jul 28, 2023	Question AnsweringTime Series	—Unverified
Context-VQA: Towards Context-Aware and Purposeful Visual Question Answering	Jul 28, 2023	Question AnsweringVisual Question Answering	CodeCode Available
Towards Generalist Biomedical AI	Jul 26, 2023	Medical Question AnsweringQuestion Answering	—Unverified
LOIS: Looking Out of Instance Semantics for Visual Question Answering	Jul 26, 2023	Question AnsweringVisual Question Answering	—Unverified
Keyword-Aware Relative Spatio-Temporal Graph Networks for Video Question Answering	Jul 25, 2023	graph constructionQuestion Answering	—Unverified
Analyzing Chain-of-Thought Prompting in Large Language Models via Gradient-based Feature Attributions	Jul 25, 2023	Question Answering	—Unverified
Contributions to the Improvement of Question Answering Systems in the Biomedical Domain	Jul 25, 2023	Passage RetrievalQuestion Answering	—Unverified
GPT-3 Models are Few-Shot Financial Reasoners	Jul 25, 2023	Financial AnalysisPrompt Engineering	—Unverified
CommonsenseVIS: Visualizing and Understanding Commonsense Reasoning Capabilities of Natural Language Models	Jul 23, 2023	Question AnsweringRelational Reasoning	—Unverified
Fast Knowledge Graph Completion using Graphics Processing Units	Jul 22, 2023	Graph EmbeddingKnowledge Graph Completion	—Unverified
Psy-LLM: Scaling up Global Mental Health Psychological Services with AI-based Large Language Models	Jul 22, 2023	ArticlesQuestion Answering	—Unverified
A Zero-shot and Few-shot Study of Instruction-Finetuned Large Language Models Applied to Clinical and Biomedical Tasks	Jul 22, 2023	named-entity-recognitionNamed Entity Recognition	—Unverified
MythQA: Query-Based Large-Scale Check-Worthy Claim Detection through Multi-Answer Open-Domain Question Answering	Jul 21, 2023	Fact CheckingMisinformation	CodeCode Available
Prompting Large Language Models with Speech Recognition Abilities	Jul 21, 2023	Abstractive Text SummarizationAutomatic Speech Recognition	—Unverified
Robust Visual Question Answering: Datasets, Methods, and Future Challenges	Jul 21, 2023	Question AnsweringVisual Question Answering	—Unverified
UMLS-KGI-BERT: Data-Centric Knowledge Integration in Transformers for Biomedical Entity Recognition	Jul 20, 2023	Document Classificationnamed-entity-recognition	—Unverified
Towards Ontologically Grounded and Language-Agnostic Knowledge Graphs	Jul 20, 2023	Knowledge GraphsQuestion Answering	—Unverified
A reinforcement learning approach for VQA validation: an application to diabetic macular edema grading	Jul 19, 2023	Medical Image AnalysisQuestion Answering	—Unverified
Towards a performance analysis on pre-trained Visual Question Answering models for autonomous driving	Jul 18, 2023	Autonomous DrivingModel Selection	CodeCode Available
Does Circuit Analysis Interpretability Scale? Evidence from Multiple Choice Capabilities in Chinchilla	Jul 18, 2023	Multiple-choiceQuestion Answering	—Unverified
Traffic-Domain Video Question Answering with Automatic Captioning	Jul 18, 2023	Question AnsweringVideo Question Answering	—Unverified
Let's ViCE! Mimicking Human Cognitive Behavior in Image Generation Evaluation	Jul 18, 2023	Image GenerationQuestion Answering	—Unverified
Generative Visual Question Answering	Jul 18, 2023	Generative Visual Question AnsweringQuestion Answering	—Unverified
Extending the Frontier of ChatGPT: Code Generation and Debugging	Jul 17, 2023	Code GenerationQuestion Answering	—Unverified
PAT: Parallel Attention Transformer for Visual Question Answering in Vietnamese	Jul 17, 2023	Question AnsweringVietnamese Visual Question Answering	—Unverified
TableGPT: Towards Unifying Tables, Nature Language and Commands into One GPT	Jul 17, 2023	Data VisualizationQuestion Answering	—Unverified
Fast Quantum Algorithm for Attention Computation	Jul 16, 2023	Language ModelingLanguage Modelling	—Unverified
A Neural-Symbolic Approach Towards Identifying Grammatically Correct Sentences	Jul 16, 2023	ArticlesCoLA	—Unverified
A scoping review on multimodal deep learning in biomedical images and texts	Jul 14, 2023	Cross-Modal RetrievalDecision Making	—Unverified
Sensi-BERT: Towards Sensitivity Driven Fine-Tuning for Parameter-Efficient BERT	Jul 14, 2023	QNLIQQP	—Unverified
MegaWika: Millions of reports and their sources across 50 diverse languages	Jul 13, 2023	ArticlesCross-Lingual Question Answering	—Unverified

Show:10 25 50

← PrevPage 108 of 217Next →

All datasets SQuAD2.0 SQuAD1.1 HotpotQA PIQA BoolQ COPA TriviaQA SQuAD1.1 dev Natural Questions OpenBookQA TruthfulQA MultiRC

Benchmark Results

#	Model	Metric	Claimed	Verified	Status
1	IE-Net (ensemble)	EM	90.94	—	Unverified
2	FPNet (ensemble)	EM	90.87	—	Unverified
3	IE-NetV2 (ensemble)	EM	90.86	—	Unverified
4	SA-Net on Albert (ensemble)	EM	90.72	—	Unverified
5	SA-Net-V2 (ensemble)	EM	90.68	—	Unverified
6	FPNet (ensemble)	EM	90.6	—	Unverified
7	Retro-Reader (ensemble)	EM	90.58	—	Unverified
8	EntitySpanFocusV2 (ensemble)	EM	90.52	—	Unverified
9	TransNets + SFVerifier + SFEnsembler (ensemble)	EM	90.49	—	Unverified
10	EntitySpanFocus+AT (ensemble)	EM	90.45	—	Unverified