Question Answering

Question answering can be segmented into domain-specific tasks like community question answering and knowledge-base question answering. Popular benchmark datasets for evaluation question answering systems include SQuAD, HotPotQA, bAbI, TriviaQA, WikiQA, and many others. Models for question answering are typically evaluated on metrics like EM and F1. Some recent top performing models are T5 and XLNet.

( Image credit: SQuAD )

Papers

Recently Added Most Hyped Most Active Needs Verification Most Verified

Showing 1331–1340 of 10817 papers

Title	Date	Tasks	Status
EACO: Enhancing Alignment in Multimodal LLMs via Critical Observation	Dec 6, 2024	MMEQuestion Answering	—Unverified
TANGO: Training-free Embodied AI Agents for Open-world Tasks	Dec 5, 2024	Embodied Question AnsweringObjectGoal Navigation	—Unverified
Give me Some Hard Questions: Synthetic Data Generation for Clinical QA	Dec 5, 2024	Question AnsweringQuestion Generation	CodeCode Available
GRAF: Graph Retrieval Augmented by Facts for Romanian Legal Multi-Choice Question Answering	Dec 5, 2024	Information RetrievalMultiple-choice	—Unverified
T2I-FactualBench: Benchmarking the Factuality of Text-to-Image Models with Knowledge-Intensive Concepts	Dec 5, 2024	BenchmarkingImage Generation	—Unverified
SynFinTabs: A Dataset of Synthetic Financial Tables for Information and Table Extraction	Dec 5, 2024	ArticlesDataset Generation	CodeCode Available
Uniform Discretized Integrated Gradients: An effective attribution based method for explaining large language models	Dec 5, 2024	BenchmarkingFeature Importance	—Unverified
Addressing Hallucinations with RAG and NMISS in Italian Healthcare LLM Chatbots	Dec 5, 2024	ArticlesQuestion Answering	—Unverified
Comprehensive Audio Query Handling System with Integrated Expert Models and Contextual Understanding	Dec 5, 2024	Audio GenerationAutomatic Speech Recognition	—Unverified
Synergizing LLMs and Knowledge Graphs: A Novel Approach to Software Repository-Related Question Answering	Dec 5, 2024	Knowledge GraphsQuestion Answering	—Unverified

Show:10 25 50

← PrevPage 134 of 1082Next →

All datasets SQuAD2.0 SQuAD1.1 HotpotQA PIQA BoolQ COPA TriviaQA SQuAD1.1 dev Natural Questions OpenBookQA TruthfulQA MultiRC

Benchmark Results

#	Model	Metric	Claimed	Verified	Status
1	IE-Net (ensemble)	EM	90.94	—	Unverified
2	FPNet (ensemble)	EM	90.87	—	Unverified
3	IE-NetV2 (ensemble)	EM	90.86	—	Unverified
4	SA-Net on Albert (ensemble)	EM	90.72	—	Unverified
5	SA-Net-V2 (ensemble)	EM	90.68	—	Unverified
6	FPNet (ensemble)	EM	90.6	—	Unverified
7	Retro-Reader (ensemble)	EM	90.58	—	Unverified
8	EntitySpanFocusV2 (ensemble)	EM	90.52	—	Unverified
9	TransNets + SFVerifier + SFEnsembler (ensemble)	EM	90.49	—	Unverified
10	EntitySpanFocus+AT (ensemble)	EM	90.45	—	Unverified