Question Answering

Question answering can be segmented into domain-specific tasks like community question answering and knowledge-base question answering. Popular benchmark datasets for evaluation question answering systems include SQuAD, HotPotQA, bAbI, TriviaQA, WikiQA, and many others. Models for question answering are typically evaluated on metrics like EM and F1. Some recent top performing models are T5 and XLNet.

( Image credit: SQuAD )

Papers

Recently Added Most Hyped Most Active Needs Verification Most Verified

Showing 7626–7650 of 10817 papers

Title	Date	Tasks	Status
Prompt Perturbation Consistency Learning for Robust Language Models	Feb 24, 2024	Data Augmentationintent-classification	—Unverified
Compound Tokens: Channel Fusion for Vision-Language Representation Learning	Dec 2, 2022	DecoderLanguage Modeling	—Unverified
PromptRefine: Enhancing Few-Shot Performance on Low-Resource Indic Languages with Example Selection from Related Example Banks	Dec 7, 2024	Cross-Lingual Question AnsweringDiversity	—Unverified
Prompt Sketching for Large Language Models	Nov 8, 2023	Arithmetic ReasoningBenchmarking	—Unverified
FaVChat: Unlocking Fine-Grained Facail Video Understanding with Multimodal Large Language Models	Mar 12, 2025	Mixture-of-ExpertsQuestion Answering	—Unverified
AstroLLaMA-Chat: Scaling AstroLLaMA with Conversational and Diverse Datasets	Jan 3, 2024	AstronomyBenchmarking	—Unverified
A Methodology for Creating Question Answering Corpora Using Inverse Data Annotation	Apr 16, 2020	Question AnsweringSemantic Parsing	—Unverified
QLSC: A Query Latent Semantic Calibrator for Robust Extractive Question Answering	Apr 30, 2024	Extractive Question-AnsweringMachine Reading Comprehension	—Unverified
FBK-HLT: An Application of Semantic Textual Similarity for Answer Selection in Community Question Answering	Jun 1, 2015	Answer SelectionCommunity Question Answering	—Unverified
Propbank-Br: a Brazilian Treebank annotated with semantic role labels	May 1, 2012	Machine TranslationQuestion Answering	—Unverified
Compounds and distributional thesauri	May 1, 2014	LemmatizationMachine Translation	—Unverified
Proposal-free One-stage Referring Expression via Grid-Word Cross-Attention	May 5, 2021	Question AnsweringReferring Expression	—Unverified
Proposing Plausible Answers for Open-ended Visual Question Answering	Oct 20, 2016	Graph MatchingOpen-Ended Question Answering	—Unverified
Proposition Knowledge Graphs	Aug 1, 2014	Knowledge GraphsNatural Language Inference	—Unverified
PropTest: Automatic Property Testing for Improved Visual Programming	Mar 25, 2024	Question AnsweringReferring Expression	—Unverified
ProQA: Structural Prompt-based Pre-training for Unified Question Answering	Jan 16, 2022	Continual LearningFew-Shot Learning	—Unverified
Graphologue: Exploring Large Language Model Responses with Interactive Diagrams	May 19, 2023	Language ModelingLanguage Modelling	—Unverified
ProSLM : A Prolog Synergized Language Model for explainable Domain Specific Knowledge Based Question Answering	Sep 17, 2024	Formal LogicLanguage Modeling	—Unverified
Feature Engineering in Learning-to-Rank for Community Question Answering Task	Sep 14, 2023	Community Question AnsweringFeature Engineering	—Unverified
ProSwitch: Knowledge-Guided Instruction Tuning to Switch Between Professional and Non-Professional Responses	Mar 14, 2024	Language ModelingLanguage Modelling	—Unverified
Feature extraction and evaluation for BioMedical Question Answering	May 28, 2021	Question AnsweringSentence	—Unverified
Graph Neural Networks in Vision-Language Image Understanding: A Survey	Mar 7, 2023	Image CaptioningImage Retrieval	—Unverified
ASTRID -- An Automated and Scalable TRIaD for the Evaluation of RAG-based Clinical Question Answering Systems	Jan 14, 2025	Question AnsweringRAG	—Unverified
Provenance: A Light-weight Fact-checker for Retrieval Augmented LLM Generation Output	Nov 1, 2024	Fact CheckingNatural Language Inference	—Unverified
Q-Heart: ECG Question Answering via Knowledge-Informed Multimodal LLMs	May 7, 2025	Electrocardiography (ECG)Language Modeling	—Unverified

Show:10 25 50

← PrevPage 306 of 433Next →

All datasets SQuAD2.0 SQuAD1.1 HotpotQA PIQA BoolQ COPA TriviaQA SQuAD1.1 dev Natural Questions OpenBookQA TruthfulQA MultiRC

Benchmark Results

#	Model	Metric	Claimed	Verified	Status
1	IE-Net (ensemble)	EM	90.94	—	Unverified
2	FPNet (ensemble)	EM	90.87	—	Unverified
3	IE-NetV2 (ensemble)	EM	90.86	—	Unverified
4	SA-Net on Albert (ensemble)	EM	90.72	—	Unverified
5	SA-Net-V2 (ensemble)	EM	90.68	—	Unverified
6	FPNet (ensemble)	EM	90.6	—	Unverified
7	Retro-Reader (ensemble)	EM	90.58	—	Unverified
8	EntitySpanFocusV2 (ensemble)	EM	90.52	—	Unverified
9	TransNets + SFVerifier + SFEnsembler (ensemble)	EM	90.49	—	Unverified
10	EntitySpanFocus+AT (ensemble)	EM	90.45	—	Unverified