Question Answering

Question answering can be segmented into domain-specific tasks like community question answering and knowledge-base question answering. Popular benchmark datasets for evaluation question answering systems include SQuAD, HotPotQA, bAbI, TriviaQA, WikiQA, and many others. Models for question answering are typically evaluated on metrics like EM and F1. Some recent top performing models are T5 and XLNet.

( Image credit: SQuAD )

Papers

Recently Added Most Hyped Most Active Needs Verification Most Verified

Showing 901–950 of 10817 papers

Title	Date	Tasks	Status	Hype	Score
COVID-19 event extraction from Twitter via extractive question answering with continuous prompts	Mar 19, 2023	BenchmarkingEvent Extraction	CodeCode Available	1	5
COVID-QA: A Question Answering Dataset for COVID-19	Jul 1, 2020	ArticlesQuestion Answering	CodeCode Available	1	5
Fine-Grained Evaluation of Large Vision-Language Models in Autonomous Driving	Mar 27, 2025	AttributeAutonomous Driving	CodeCode Available	1	5
Visually-Situated Natural Language Understanding with Contrastive Reading Model and Frozen Large Language Models	May 24, 2023	document understandingImage Captioning	CodeCode Available	1	5
CRAFT Your Dataset: Task-Specific Synthetic Dataset Generation Through Corpus Retrieval and Augmentation	Sep 3, 2024	Dataset GenerationQuestion Answering	CodeCode Available	1	5
CharacterBox: Evaluating the Role-Playing Capabilities of LLMs in Text-Based Virtual Worlds	Dec 7, 2024	Question Answering	CodeCode Available	1	5
Creating Custom Event Data Without Dictionaries: A Bag-of-Tricks	Apr 3, 2023	Active LearningQuestion Answering	CodeCode Available	1	5
Change Detection Meets Visual Question Answering	Dec 12, 2021	Answer GenerationChange Detection	CodeCode Available	1	5
Characterizing Truthfulness in Large Language Model Generations with Local Intrinsic Dimension	Feb 28, 2024	Language ModelingLanguage Modelling	CodeCode Available	1	5
Are Deep Neural Networks SMARTer than Second Graders?	Dec 20, 2022	Language ModellingMeta-Learning	CodeCode Available	1	5
An Optimal Algorithm for Finding Champions in Tournament Graphs	Nov 26, 2021	Conversational SearchInformation Retrieval	CodeCode Available	1	5
Cross-document Event Coreference Search: Task, Dataset and Modeling	Oct 23, 2022	Coreference ResolutionCross Document Coreference Resolution	CodeCode Available	1	5
AlanaVLM: A Multimodal Embodied AI Foundation Model for Egocentric Video Understanding	Jun 19, 2024	Question AnsweringSpatial Reasoning	CodeCode Available	1	5
CDLM: Cross-Document Language Modeling	Jan 2, 2021	Citation RecommendationCoreference Resolution	CodeCode Available	1	5
Cue-CoT: Chain-of-thought Prompting for Responding to In-depth Dialogue Questions with LLMs	May 19, 2023	Question AnsweringSemantic Similarity	CodeCode Available	1	5
MR-GSM8K: A Meta-Reasoning Benchmark for Large Language Model Evaluation	Dec 28, 2023	GSM8KLanguage Model Evaluation	CodeCode Available	1	5
Fine-grained Image Classification and Retrieval by Combining Visual and Locally Pooled Textual Features	Jan 14, 2020	ClassificationDiversity	CodeCode Available	1	5
Improving BERT with Syntax-aware Local Attention	Dec 30, 2020	Machine TranslationQuestion Answering	CodeCode Available	1	5
Are Large Language Models Ready for Healthcare? A Comparative Study on Clinical Language Understanding	Apr 9, 2023	Document Classificationnamed-entity-recognition	CodeCode Available	1	5
Cross-modal Causal Relation Alignment for Video Question Grounding	Mar 5, 2025	Contrastive Learningcross-modal alignment	CodeCode Available	1	5
Chain-of-Skills: A Configurable Model for Open-domain Question Answering	May 4, 2023	Open-Domain Question AnsweringQuestion Answering	CodeCode Available	1	5
Improving LLM Reasoning with Multi-Agent Tree-of-Thought Validator Agent	Sep 17, 2024	GSM8KQuestion Answering	CodeCode Available	1	5
Cross-Modal Causal Relational Reasoning for Event-Level Visual Question Answering	Jul 26, 2022	Causal InferenceQuestion Answering	CodeCode Available	1	5
Cross-modal Information Flow in Multimodal Large Language Models	Nov 27, 2024	Question AnsweringVisual Question Answering	CodeCode Available	1	5
ALaRM: Align Language Models via Hierarchical Rewards Modeling	Mar 11, 2024	Long Form Question AnsweringMachine Translation	CodeCode Available	1	5
Are Multilingual LLMs Culturally-Diverse Reasoners? An Investigation into Multicultural Proverbs and Sayings	Sep 15, 2023	Question Answering	CodeCode Available	1	5
ChroniclingAmericaQA: A Large-scale Question Answering Dataset based on Historical American Newspaper Pages	Mar 26, 2024	Machine Reading ComprehensionOptical Character Recognition (OCR)	CodeCode Available	1	5
Chain-of-Layer: Iteratively Prompting Large Language Models for Taxonomy Induction from Limited Examples	Feb 12, 2024	In-Context LearningQuestion Answering	CodeCode Available	1	5
FILTER: An Enhanced Fusion Method for Cross-lingual Language Understanding	Sep 10, 2020	Cross-Lingual TransferNER	CodeCode Available	1	5
ChainCQG: Flow-Aware Conversational Question Generation	Feb 4, 2021	Conversational Question AnsweringQuestion Answering	CodeCode Available	1	5
C-STS: Conditional Semantic Textual Similarity	May 24, 2023	Information RetrievalLanguage Model Evaluation	CodeCode Available	1	5
Improving Retrieval-Augmented Large Language Models via Data Importance Learning	Jul 6, 2023	ImputationQuestion Answering	CodeCode Available	1	5
Cerbero-7B: A Leap Forward in Language-Specific LLMs Through Enhanced Chat Corpus Generation and Evaluation	Nov 27, 2023	DiversityLanguage Modelling	CodeCode Available	1	5
Specialty-Oriented Generalist Medical AI for Chest CT Screening	Apr 3, 2023	Disease PredictionLung Cancer Diagnosis	CodeCode Available	1	5
CXR-LLAVA: a multimodal large language model for interpreting chest X-ray images	Oct 22, 2023	DiagnosticLanguage Modeling	CodeCode Available	1	5
CuriousLLM: Elevating Multi-Document QA with Reasoning-Infused Knowledge Graph Prompting	Apr 13, 2024	HallucinationKnowledge Graphs	CodeCode Available	1	5
Increasing Coverage and Precision of Textual Information in Multilingual Knowledge Graphs	Nov 27, 2023	Entity LinkingKnowledge Graph Completion	CodeCode Available	1	5
CVLUE: A New Benchmark Dataset for Chinese Vision-Language Understanding Evaluation	Jul 1, 2024	Image-text RetrievalQuestion Answering	CodeCode Available	1	5
CCQA: A New Web-Scale Question Answering Dataset for Model Pre-Training	Oct 14, 2021	Open-Domain Question AnsweringQuestion Answering	CodeCode Available	1	5
CBR-RAG: Case-Based Reasoning for Retrieval Augmented Generation in LLMs for Legal Question Answering	Apr 4, 2024	Language ModelingLanguage Modelling	CodeCode Available	1	5
CC-Riddle: A Question Answering Dataset of Chinese Character Riddles	Jun 28, 2022	General KnowledgeLanguage Modelling	CodeCode Available	1	5
Are Vision Language Models Ready for Clinical Diagnosis? A 3D Medical Benchmark for Tumor-centric Visual Question Answering	May 25, 2025	AnatomyBenchmarking	CodeCode Available	1	5
CharBERT: Character-aware Pre-trained Language Model	Nov 3, 2020	Language ModelingLanguage Modelling	CodeCode Available	1	5
Abg-CoQA: Clarifying Ambiguity in Conversational Question Answering	Jun 22, 2021	4kConversational Question Answering	CodeCode Available	1	5
Fool Your (Vision and) Language Model With Embarrassingly Simple Permutations	Oct 2, 2023	In-Context LearningInstruction Following	CodeCode Available	1	5
Debate on Graph: a Flexible and Reliable Reasoning Framework for Large Language Models	Sep 5, 2024	Answer GenerationGraph Question Answering	CodeCode Available	1	5
Data Mining in Clinical Trial Text: Transformers for Classification and Question Answering Tasks	Jan 30, 2020	Entity Extraction using GANGeneral Classification	CodeCode Available	1	5
InfMLLM: A Unified Framework for Visual-Language Tasks	Nov 12, 2023	GPUImage Captioning	CodeCode Available	1	5
FeTaQA: Free-form Table Question Answering	Apr 1, 2021	FormQuestion Answering	CodeCode Available	1	5
Causal Distillation for Language Models	Dec 5, 2021	Language ModelingLanguage Modelling	CodeCode Available	1	5

Show:10 25 50

← PrevPage 19 of 217Next →

All datasets SQuAD2.0 SQuAD1.1 HotpotQA PIQA BoolQ COPA TriviaQA SQuAD1.1 dev Natural Questions OpenBookQA TruthfulQA MultiRC

Benchmark Results

#	Model	Metric	Claimed	Verified	Status
1	IE-Net (ensemble)	EM	90.94	—	Unverified
2	FPNet (ensemble)	EM	90.87	—	Unverified
3	IE-NetV2 (ensemble)	EM	90.86	—	Unverified
4	SA-Net on Albert (ensemble)	EM	90.72	—	Unverified
5	SA-Net-V2 (ensemble)	EM	90.68	—	Unverified
6	FPNet (ensemble)	EM	90.6	—	Unverified
7	Retro-Reader (ensemble)	EM	90.58	—	Unverified
8	EntitySpanFocusV2 (ensemble)	EM	90.52	—	Unverified
9	TransNets + SFVerifier + SFEnsembler (ensemble)	EM	90.49	—	Unverified
10	EntitySpanFocus+AT (ensemble)	EM	90.45	—	Unverified