Question Answering

Question answering can be segmented into domain-specific tasks like community question answering and knowledge-base question answering. Popular benchmark datasets for evaluation question answering systems include SQuAD, HotPotQA, bAbI, TriviaQA, WikiQA, and many others. Models for question answering are typically evaluated on metrics like EM and F1. Some recent top performing models are T5 and XLNet.

( Image credit: SQuAD )

Papers

Recently Added Most Hyped Most Active Needs Verification Most Verified

Showing 2451–2500 of 10817 papers

Title	Date	Tasks	Status
Are You Robert or RoBERTa? Deceiving Online Authorship Attribution Models Using Neural Text Generators	Mar 18, 2022	Authorship AttributionQuestion Answering	—Unverified
Align, Disambiguate and Walk: A Unified Approach for Measuring Semantic Similarity	Aug 1, 2013	Information RetrievalLexical Simplification	—Unverified
DOSA: A Dataset of Social Artifacts from Different Indian Geographical Subcultures	Feb 23, 2024	Question AnsweringText Generation	—Unverified
“Are you calling for the vaporizer you ordered?” Combining Search and Prediction to Identify Orders in Contact Centers	Aug 1, 2021	Question AnsweringRetrieval	—Unverified
Cheater's Bowl: Human vs. Computer Search Strategies for Open-Domain Question Answering	Nov 15, 2022	Open-Domain Question AnsweringQuestion Answering	—Unverified
Are we there yet? Exploring clinical domain knowledge of BERT models	Jun 1, 2021	Language ModellingOpen-Domain Question Answering	—Unverified
Align and Aggregate: Compositional Reasoning with Video Alignment and Answer Aggregation for Video Question-Answering	Jul 3, 2024	Contrastive LearningLanguage Modelling	—Unverified
ChatSOS: Vector Database Augmented Generative Question Answering Assistant in Safety Engineering	May 8, 2024	Generative Question AnsweringInformation Retrieval	—Unverified
Are we asking the right questions in MovieQA?	Nov 8, 2019	Question AnsweringVisual Question Answering	—Unverified
Chats-Grid: An Iterative Retrieval Q&A Optimization Scheme Leveraging Large Model and Retrieval Enhancement Generation in smart grid	Feb 21, 2025	Large Language ModelPrompt Engineering	—Unverified
ChatQA: Surpassing GPT-4 on Conversational QA and RAG	Jan 18, 2024	Conversational Question AnsweringQuestion Answering	—Unverified
Are VQA Systems RAD? Measuring Robustness to Augmented Data with Focused Interventions	Jun 8, 2021	Question AnsweringVisual Question Answering	—Unverified
Adapting Biomedical Abstracts into Plain language using Large Language Models	Jan 26, 2025	AvgQuestion Answering	—Unverified
Adapting and evaluating a deep learning language model for clinical why-question answering	Nov 13, 2019	Language ModelingLanguage Modelling	—Unverified
Chat or Learn: a Data-Driven Robust Question-Answering System	May 1, 2020	ArticlesChatbot	—Unverified
Do not let the history haunt you -- Mitigating Compounding Errors in Conversational Question Answering	May 12, 2020	Conversational Question AnsweringQuestion Answering	—Unverified
chatClimate: Grounding Conversational AI in Climate Science	Apr 11, 2023	HallucinationQuestion Answering	—Unverified
ChatGPT versus Traditional Question Answering for Knowledge Graphs: Current Status and Future Directions Towards Knowledge Graph Chatbots	Feb 8, 2023	ChatbotKnowledge Graphs	—Unverified
A Lightweight and High Performance Monolingual Word Aligner	Aug 1, 2013	Machine TranslationNatural Language Inference	—Unverified
Do not let the history haunt you: Mitigating Compounding Errors in Conversational Question Answering	May 1, 2020	Conversational Question AnsweringQuestion Answering	—Unverified
ChatGPT as a Factual Inconsistency Evaluator for Text Summarization	Mar 27, 2023	Abstractive Text SummarizationNatural Language Inference	—Unverified
Algorithm for Semantic Network Generation from Texts of Low Resource Languages Such as Kiswahili	Jan 16, 2025	Question Answering	—Unverified
Do Not Design, Learn: A Trainable Scoring Function for Uncertainty Estimation in Generative LLMs	Jun 17, 2024	Question Answering	—Unverified
Don't Read Too Much into It: Adaptive Computation for Open-Domain Question Answering	Nov 10, 2020	Open-Domain Question AnsweringQuestion Answering	—Unverified
Do Sentence Transformers Learn Quasi-Geospatial Concepts from General Text?	Apr 5, 2024	Question AnsweringRecommendation Systems	—Unverified
ChatGPT in the Classroom: An Analysis of Its Strengths and Weaknesses for Solving Undergraduate Computer Science Questions	Apr 28, 2023	ChatbotLanguage Modeling	—Unverified
A Lexicon-based Investigation of Research Issues in Japanese Factuality Analysis	Oct 1, 2013	Natural Language InferenceQuestion Answering	—Unverified
ChatASU: Evoking LLM's Reflexion to Truly Understand Aspect Sentiment in Dialogues	Mar 8, 2024	HallucinationQuestion Answering	—Unverified
A Review on Deep Learning Techniques Applied to Answer Selection	Aug 1, 2018	Answer SelectionCommunity Question Answering	—Unverified
Advancing Chart Question Answering with Robust Chart Component Recognition	Jul 19, 2024	Chart Question AnsweringQuestion Answering	—Unverified
ChartReasoner: Code-Driven Modality Bridging for Long-Chain Reasoning in Chart Question Answering	Jun 11, 2025	Chart Question AnsweringImage to text	—Unverified
Chart Question Answering: State of the Art and Future Directions	May 8, 2022	Chart Question AnsweringQuestion Answering	—Unverified
A Review of Reinforcement Learning for Natural Language Processing, and Applications in Healthcare	Oct 23, 2023	Decision MakingMachine Translation	—Unverified
ChartQA-X: Generating Explanations for Charts	Apr 17, 2025	Decision MakingExplanation Generation	—Unverified
ADAPT Centre Cone Team at IJCNLP-2017 Task 5: A Similarity-Based Logistic Regression Approach to Multi-choice Question Answering in an Examinations Shared Task	Dec 1, 2017	Answer SelectionQuestion Answering	—Unverified
DOMLIN at SemEval-2019 Task 8: Automated Fact Checking exploiting Ratings in Community Question Answering Forums	Jun 1, 2019	Community Question AnsweringFact Checking	—Unverified
ChartMuseum: Testing Visual Reasoning Capabilities of Large Vision-Language Models	May 19, 2025	Chart Question AnsweringChart Understanding	—Unverified
A Review of Hybrid and Ensemble in Deep Learning for Natural Language Processing	Dec 9, 2023	Deep LearningLanguage Modeling	—Unverified
ChartMind: A Comprehensive Benchmark for Complex Real-world Multimodal Chart Question Answering	May 29, 2025	Chart Question AnsweringChart Understanding	—Unverified
ChartKG: A Knowledge-Graph-Based Representation for Chart Images	Oct 13, 2024	Chart Question AnsweringKnowledge Graph Completion	—Unverified
A review of faithfulness metrics for hallucination assessment in Large Language Models	Dec 31, 2024	BenchmarkingHallucination	—Unverified
A Learn-Then-Reason Model Towards Generalization in Knowledge Base Question Answering	Jun 20, 2024	Knowledge Base Question AnsweringLanguage Modelling	—Unverified
Charting the Future: Using Chart Question-Answering for Scalable Evaluation of LLM-Driven Data Visualizations	Sep 27, 2024	Chart Question AnsweringQuestion Answering	—Unverified
A Review of Deep Learning for Video Captioning	Apr 22, 2023	Deep LearningDense Video Captioning	—Unverified
Chart-HQA: A Benchmark for Hypothetical Question Answering in Charts	Mar 6, 2025	counterfactualCounterfactual Reasoning	—Unverified
A Retrieval-Augmented Knowledge Mining Method with Deep Thinking LLMs for Biomedical Research and Clinical Support	Mar 29, 2025	Answer GenerationArticles	—Unverified
ALBERT with Knowledge Graph Encoder Utilizing Semantic Similarity for Commonsense Question Answering	Nov 14, 2022	Language ModelingLanguage Modelling	—Unverified
Adaptation with Self-Evaluation to Improve Selective Prediction in LLMs	Oct 18, 2023	Decision MakingNatural Language Understanding	—Unverified
ChartCitor: Multi-Agent Framework for Fine-Grained Chart Visual Attribution	Feb 3, 2025	Chart Question AnsweringQuestion Answering	—Unverified
Are the Hidden States Hiding Something? Testing the Limits of Factuality-Encoding Capabilities in LLMs	May 22, 2025	Question Answering	—Unverified

Show:10 25 50

← PrevPage 50 of 217Next →

All datasets SQuAD2.0 SQuAD1.1 HotpotQA PIQA BoolQ COPA TriviaQA SQuAD1.1 dev Natural Questions OpenBookQA TruthfulQA MultiRC

Benchmark Results

#	Model	Metric	Claimed	Verified	Status
1	IE-Net (ensemble)	EM	90.94	—	Unverified
2	FPNet (ensemble)	EM	90.87	—	Unverified
3	IE-NetV2 (ensemble)	EM	90.86	—	Unverified
4	SA-Net on Albert (ensemble)	EM	90.72	—	Unverified
5	SA-Net-V2 (ensemble)	EM	90.68	—	Unverified
6	FPNet (ensemble)	EM	90.6	—	Unverified
7	Retro-Reader (ensemble)	EM	90.58	—	Unverified
8	EntitySpanFocusV2 (ensemble)	EM	90.52	—	Unverified
9	TransNets + SFVerifier + SFEnsembler (ensemble)	EM	90.49	—	Unverified
10	EntitySpanFocus+AT (ensemble)	EM	90.45	—	Unverified