Question Answering

Question answering can be segmented into domain-specific tasks like community question answering and knowledge-base question answering. Popular benchmark datasets for evaluation question answering systems include SQuAD, HotPotQA, bAbI, TriviaQA, WikiQA, and many others. Models for question answering are typically evaluated on metrics like EM and F1. Some recent top performing models are T5 and XLNet.

( Image credit: SQuAD )

Papers

Recently Added Most Hyped Most Active Needs Verification Most Verified

Showing 4251–4300 of 10817 papers

Title	Date	Tasks	Status	Hype
Neural models for Factual Inconsistency Classification with Explanations	Jun 15, 2023	8kClassification	CodeCode Available	0
COSA: Concatenated Sample Pretrained Vision-Language Foundation Model	Jun 15, 2023	Formmodel	CodeCode Available	1
LVLM-eHub: A Comprehensive Evaluation Benchmark for Large Vision-Language Models	Jun 15, 2023	HallucinationImage Captioning	CodeCode Available	2
Improving Selective Visual Question Answering by Learning from Your Peers	Jun 14, 2023	Question AnsweringVisual Question Answering	CodeCode Available	1
Unifying Large Language Models and Knowledge Graphs: A Roadmap	Jun 14, 2023	Knowledge GraphsQuestion Answering	—Unverified	0
Scalable Neural-Probabilistic Answer Set Programming	Jun 14, 2023	Probabilistic ProgrammingQuestion Answering	CodeCode Available	1
Visual Question Answering (VQA) on Images with Superimposed Text	Jun 13, 2023	Question AnsweringVisual Question Answering	—Unverified	0
Safeguarding Data in Multimodal AI: A Differentially Private Approach to CLIP Training	Jun 13, 2023	image-classificationImage Classification	CodeCode Available	0
AVIS: Autonomous Visual Information Seeking with Large Language Model Agent	Jun 13, 2023	Decision MakingLanguage Modeling	—Unverified	0
h2oGPT: Democratizing Large Language Models	Jun 13, 2023	ChatbotFairness	CodeCode Available	6
Improving Opinion-based Question Answering Systems Through Label Error Detection and Overwrite	Jun 13, 2023	Label Error DetectionMachine Reading Comprehension	—Unverified	0
Soft Language Clustering for Multilingual Model Pre-training	Jun 13, 2023	ClusteringCross-Lingual Transfer	—Unverified	0
Question Decomposition Tree for Answering Complex Questions over Knowledge Bases	Jun 13, 2023	Knowledge Base Question AnsweringQuestion Answering	CodeCode Available	1
WebGLM: Towards An Efficient Web-Enhanced Question Answering System with Human Preferences	Jun 13, 2023	Language ModelingLanguage Modelling	CodeCode Available	3
A Practical Entity Linking System for Tables in Scientific Literature	Jun 12, 2023	Entity LinkingKnowledge Graphs	—Unverified	0
When Do Annotator Demographics Matter? Measuring the Influence of Annotator Demographics with the POPQUORN Dataset	Jun 12, 2023	Question Answering	CodeCode Available	1
The Effect of Masking Strategies on Knowledge Retention by Language Models	Jun 12, 2023	Information RetrievalQuestion Answering	CodeCode Available	0
History Semantic Graph Enhanced Conversational KBQA with Temporal Information Modeling	Jun 12, 2023	Question Answering	—Unverified	0
A Survey of Vision-Language Pre-training from the Lens of Multimodal Machine Translation	Jun 12, 2023	Image CaptioningMachine Translation	—Unverified	0
Global and Local Semantic Completion Learning for Vision-Language Pre-training	Jun 12, 2023	cross-modal alignmentImage-text Retrieval	CodeCode Available	1
Multi-Source Test-Time Adaptation as Dueling Bandits for Extractive Question Answering	Jun 11, 2023	Decision MakingExtractive Question-Answering	CodeCode Available	0
Multi-modal Pre-training for Medical Vision-language Understanding and Generation: An Empirical Study with A New Benchmark	Jun 10, 2023	Image-text RetrievalMedical Report Generation	CodeCode Available	1
Towards the Exploitation of LLM-based Chatbot for Providing Legal Support to Palestinian Cooperatives	Jun 9, 2023	ChatbotQuestion Answering	—Unverified	0
Leveraging Large Language Models for Scalable Vector Graphics-Driven Image Understanding	Jun 9, 2023	Few-Shot Learningimage-classification	CodeCode Available	0
Privacy Aware Question-Answering System for Online Mental Health Risk Assessment	Jun 9, 2023	DiagnosticQuestion Answering	—Unverified	0
Modular Visual Question Answering via Code Generation	Jun 8, 2023	Code GenerationIn-Context Learning	CodeCode Available	1
Improving Vietnamese Legal Question--Answering System based on Automatic Data Enrichment	Jun 8, 2023	Question AnsweringRetrieval	—Unverified	0
Video-ChatGPT: Towards Detailed Video Understanding via Large Vision and Language Models	Jun 8, 2023	Question AnsweringVCGBench-Diverse	CodeCode Available	3
Knowledge Detection by Relevant Question and Image Attributes in Visual Question Answering	Jun 8, 2023	Question AnsweringRetrieval	—Unverified	0
Mapping the Challenges of HCI: An Application and Evaluation of ChatGPT and GPT-4 for Mining Insights at Scale	Jun 8, 2023	Extractive Question-AnsweringQuestion Answering	—Unverified	0
PIXIU: A Large Language Model, Instruction Data and Evaluation Benchmark for Finance	Jun 8, 2023	Conversational Question AnsweringLanguage Modeling	CodeCode Available	2
Phrase Retrieval for Open-Domain Conversational Question Answering with Conversational Dependency Modeling via Contrastive Learning	Jun 7, 2023	Contrastive LearningConversational Question Answering	CodeCode Available	0
When to Read Documents or QA History: On Unified and Selective Open-domain QA	Jun 7, 2023	Natural QuestionsOpen-Domain Question Answering	—Unverified	0
Evaluation of ChatGPT on Biomedical Tasks: A Zero-Shot Comparison with Fine-Tuned Generative Transformers	Jun 7, 2023	Document ClassificationLanguage Modeling	—Unverified	0
Enhancing In-Context Learning with Answer Feedback for Multi-Span Question Answering	Jun 7, 2023	In-Context LearningKeyphrase Extraction	CodeCode Available	1
Benchmarking Foundation Models with Language-Model-as-an-Examiner	Jun 7, 2023	BenchmarkingLanguage Modeling	—Unverified	0
Knowledge-Augmented Language Model Prompting for Zero-Shot Knowledge Graph Question Answering	Jun 7, 2023	Graph Question AnsweringLanguage Modeling	—Unverified	0
Gotta: Generative Few-shot Question Answering by Prompt-based Cloze Data Augmentation	Jun 7, 2023	Data AugmentationQuestion Answering	CodeCode Available	0
LogiQA 2.0—An Improved Dataset for Logical Reasoning in Natural Language Understanding	Jun 6, 2023	Logical ReasoningLogical Reasoning Reading Comprehension	CodeCode Available	0
Prompt Space Optimizing Few-shot Reasoning Success with Large Language Models	Jun 6, 2023	Arithmetic ReasoningIn-Context Learning	CodeCode Available	0
Q: How to Specialize Large Vision-Language Models to Data-Scarce VQA Tasks? A: Self-Train on Unlabeled Images!	Jun 6, 2023	counterfactualData Augmentation	CodeCode Available	1
Diversifying Joint Vision-Language Tokenization Learning	Jun 6, 2023	Question AnsweringRepresentation Learning	—Unverified	0
Triggering Multi-Hop Reasoning for Question Answering in Language Models using Soft Prompts and Random Walks	Jun 6, 2023	Knowledge GraphsQuestion Answering	—Unverified	0
CUE: An Uncertainty Interpretation Framework for Text Classifiers Built on Pre-Trained Language Models	Jun 6, 2023	Emotion ClassificationLinguistic Acceptability	CodeCode Available	0
An Approach to Solving the Abstraction and Reasoning Corpus (ARC) Challenge	Jun 6, 2023	ARCQuestion Answering	CodeCode Available	1
SamToNe: Improving Contrastive Loss for Dual Encoder Retrieval Models with Same Tower Negatives	Jun 5, 2023	Contrastive LearningInformation Retrieval	—Unverified	0
Do-GOOD: Towards Distribution Shift Evaluation for Pre-Trained Visual Document Understanding Models	Jun 5, 2023	document understandingQuestion Answering	CodeCode Available	0
PokemonChat: Auditing ChatGPT for Pokémon Universe Knowledge	Jun 5, 2023	Information RetrievalQuestion Answering	—Unverified	0
Benchmarking Large Language Models on CMExam -- A Comprehensive Chinese Medical Exam Dataset	Jun 5, 2023	BenchmarkingMultiple-choice	CodeCode Available	1
Evaluation of AI Chatbots for Patient-Specific EHR Questions	Jun 5, 2023	Language ModelingLanguage Modelling	—Unverified	0

Show:10 25 50

← PrevPage 86 of 217Next →

All datasets SQuAD2.0 SQuAD1.1 HotpotQA PIQA BoolQ COPA TriviaQA SQuAD1.1 dev Natural Questions OpenBookQA TruthfulQA MultiRC

Benchmark Results

#	Model	Metric	Claimed	Verified	Status
1	IE-Net (ensemble)	EM	90.94	—	Unverified
2	FPNet (ensemble)	EM	90.87	—	Unverified
3	IE-NetV2 (ensemble)	EM	90.86	—	Unverified
4	SA-Net on Albert (ensemble)	EM	90.72	—	Unverified
5	SA-Net-V2 (ensemble)	EM	90.68	—	Unverified
6	FPNet (ensemble)	EM	90.6	—	Unverified
7	Retro-Reader (ensemble)	EM	90.58	—	Unverified
8	EntitySpanFocusV2 (ensemble)	EM	90.52	—	Unverified
9	TransNets + SFVerifier + SFEnsembler (ensemble)	EM	90.49	—	Unverified
10	EntitySpanFocus+AT (ensemble)	EM	90.45	—	Unverified