Question Answering

Question answering can be segmented into domain-specific tasks like community question answering and knowledge-base question answering. Popular benchmark datasets for evaluation question answering systems include SQuAD, HotPotQA, bAbI, TriviaQA, WikiQA, and many others. Models for question answering are typically evaluated on metrics like EM and F1. Some recent top performing models are T5 and XLNet.

( Image credit: SQuAD )

Papers

Recently Added Most Hyped Most Active Needs Verification Most Verified

Showing 1501–1525 of 10817 papers

Title	Date	Tasks	Status	Hype	Score
EgoVLPv2: Egocentric Video-Language Pre-training with Fusion in the Backbone	Jul 11, 2023	Action RecognitionMoment Queries	CodeCode Available	1	5
IndicSQuAD: A Comprehensive Multilingual Question Answering Dataset for Indic Languages	May 6, 2025	Question Answering	CodeCode Available	1	5
InfiBench: Evaluating the Question-Answering Capabilities of Code Large Language Models	Mar 11, 2024	Code GenerationHumanEval	CodeCode Available	1	5
CLTR: An End-to-End, Transformer-Based System for Cell Level Table Retrieval and Table Question Answering	Jun 8, 2021	Question AnsweringRetrieval	CodeCode Available	1	5
BiMediX: Bilingual Medical Mixture of Experts LLM	Feb 20, 2024	Mixture-of-ExpertsMultiple-choice	CodeCode Available	1	5
ELECTRA: Pre-training Text Encoders as Discriminators Rather Than Generators	Mar 23, 2020	GPULanguage Modeling	CodeCode Available	1	5
Increasing Model Capacity for Free: A Simple Strategy for Parameter Efficient Fine-tuning	Jul 1, 2024	image-classificationImage Classification	CodeCode Available	1	5
Eliminating Position Bias of Language Models: A Mechanistic Approach	Jul 1, 2024	Mathobject-detection	CodeCode Available	1	5
BioBERT: a pre-trained biomedical language representation model for biomedical text mining	Jan 25, 2019	Drug–drug Interaction ExtractionFew-Shot Learning	CodeCode Available	1	5
BioBridge: Bridging Biomedical Foundation Models via Knowledge Graphs	Oct 5, 2023	Cross-Modal RetrievalDomain Generalization	CodeCode Available	1	5
Empirical Study of Zero-Shot NER with ChatGPT	Oct 16, 2023	Arithmetic Reasoningnamed-entity-recognition	CodeCode Available	1	5
BioELECTRA:Pretrained Biomedical text Encoder using Discriminators	Jun 11, 2021	ArticlesLanguage Modeling	CodeCode Available	1	5
Bioformer: an efficient transformer language model for biomedical text mining	Feb 3, 2023	ArticlesDocument Classification	CodeCode Available	1	5
CommonsenseQA: A Question Answering Challenge Targeting Commonsense Knowledge	Nov 2, 2018	Common Sense ReasoningMultiple-choice	CodeCode Available	1	5
Clues Before Answers: Generation-Enhanced Multiple-Choice QA	Apr 30, 2022	DecoderMultiple-choice	CodeCode Available	1	5
MFC-Bench: Benchmarking Multimodal Fact-Checking with Large Vision-Language Models	Jun 17, 2024	BenchmarkingFact Checking	CodeCode Available	1	5
Emergence of Grounded Compositional Language in Multi-Agent Populations	Mar 15, 2017	Machine TranslationQuestion Answering	CodeCode Available	1	5
CREPE: Open-Domain Question Answering with False Presuppositions	Nov 30, 2022	Open-Domain Question AnsweringQuestion Answering	CodeCode Available	1	5
In Defense of Grid Features for Visual Question Answering	Jan 10, 2020	Image CaptioningQuestion Answering	CodeCode Available	1	5
InfMLLM: A Unified Framework for Visual-Language Tasks	Nov 12, 2023	GPUImage Captioning	CodeCode Available	1	5
Insights into Alignment: Evaluating DPO and its Variants Across Multiple Tasks	Apr 23, 2024	Mathematical Problem-SolvingQuestion Answering	CodeCode Available	1	5
Empower Large Language Model to Perform Better on Industrial Domain-Specific Question Answering	May 19, 2023	Language ModelingLanguage Modelling	CodeCode Available	1	5
IoT-LM: Large Multisensory Language Models for the Internet of Things	Jul 13, 2024	Language ModelingLanguage Modelling	CodeCode Available	1	5
Knowledge-Based Video Question Answering with Unsupervised Scene Descriptions	Jul 17, 2020	Question AnsweringVideo Question Answering	CodeCode Available	1	5
Large Language Models in the Clinic: A Comprehensive Benchmark	Apr 25, 2024	Decision MakingDocument Summarization	CodeCode Available	1	5

Show:10 25 50

← PrevPage 61 of 433Next →

All datasets SQuAD2.0 SQuAD1.1 HotpotQA PIQA BoolQ COPA TriviaQA SQuAD1.1 dev Natural Questions OpenBookQA TruthfulQA MultiRC

Benchmark Results

#	Model	Metric	Claimed	Verified	Status
1	IE-Net (ensemble)	EM	90.94	—	Unverified
2	FPNet (ensemble)	EM	90.87	—	Unverified
3	IE-NetV2 (ensemble)	EM	90.86	—	Unverified
4	SA-Net on Albert (ensemble)	EM	90.72	—	Unverified
5	SA-Net-V2 (ensemble)	EM	90.68	—	Unverified
6	FPNet (ensemble)	EM	90.6	—	Unverified
7	Retro-Reader (ensemble)	EM	90.58	—	Unverified
8	EntitySpanFocusV2 (ensemble)	EM	90.52	—	Unverified
9	TransNets + SFVerifier + SFEnsembler (ensemble)	EM	90.49	—	Unverified
10	EntitySpanFocus+AT (ensemble)	EM	90.45	—	Unverified