Question Answering

Question answering can be segmented into domain-specific tasks like community question answering and knowledge-base question answering. Popular benchmark datasets for evaluation question answering systems include SQuAD, HotPotQA, bAbI, TriviaQA, WikiQA, and many others. Models for question answering are typically evaluated on metrics like EM and F1. Some recent top performing models are T5 and XLNet.

( Image credit: SQuAD )

Papers

Recently Added Most Hyped Most Active Needs Verification Most Verified

Showing 1301–1325 of 10817 papers

Title	Date	Tasks	Status	Hype
Can We Generate Visual Programs Without Prompting LLMs?	Dec 11, 2024	Data AugmentationQuestion Answering	—Unverified	0
Progressive Multi-granular Alignments for Grounded Reasoning in Large Vision-Language Models	Dec 11, 2024	Question AnsweringVisual Grounding	CodeCode Available	0
IMPACT: A Large-scale Integrated Multimodal Patent Analysis and Creation Dataset for Design Patents	Dec 10, 2024	Cross-Modal RetrievalImage Classification	CodeCode Available	1
Ontology-Aware RAG for Improved Question-Answering in Cybersecurity Education	Dec 10, 2024	Question AnsweringRAG	—Unverified	0
AutoPrep: Natural Language Question-Aware Data Preparation with a Multi-Agent Framework	Dec 10, 2024	Code GenerationLarge Language Model	—Unverified	0
BiMediX2: Bio-Medical EXpert LMM for Diverse Medical Modalities	Dec 10, 2024	Medical Visual Question AnsweringQuestion Answering	CodeCode Available	2
Piece of Table: A Divide-and-Conquer Approach for Selecting Sub-Tables in Table Question Answering	Dec 10, 2024	Question AnsweringTable-based Question Answering	—Unverified	0
MM-PoE: Multiple Choice Reasoning via. Process of Elimination using Multi-Modal Models	Dec 10, 2024	Multiple-choiceQuestion Answering	CodeCode Available	0
RAG-based Question Answering over Heterogeneous Data and Text	Dec 10, 2024	Answer GenerationKnowledge Graphs	—Unverified	0
PediaBench: A Comprehensive Chinese Pediatric Dataset for Benchmarking Large Language Models	Dec 9, 2024	BenchmarkingInstruction Following	CodeCode Available	0
FM2DS: Few-Shot Multimodal Multihop Data Synthesis with Knowledge Distillation for Question Answering	Dec 9, 2024	Knowledge DistillationQuestion Answering	CodeCode Available	0
3D Spatial Understanding in MLLMs: Disambiguation and Evaluation	Dec 9, 2024	3D dense captioning3D visual grounding	—Unverified	0
LLaVA-SpaceSGG: Visual Instruct Tuning for Open-vocabulary Scene Graph Generation with Enhanced Spatial Relations	Dec 9, 2024	Language ModelingLanguage Modelling	CodeCode Available	1
Ranked from Within: Ranking Large Multimodal Models for Visual Question Answering Without Labels	Dec 9, 2024	Question AnsweringVisual Question Answering	—Unverified	0
1-800-SHARED-TASKS at RegNLP: Lexical Reranking of Semantic Retrieval (LeSeR) for Regulatory Question Answering	Dec 8, 2024	Answer GenerationDomain Adaptation	—Unverified	0
An Entailment Tree Generation Approach for Multimodal Multi-Hop Question Answering with Mixture-of-Experts and Iterative Feedback Mechanism	Dec 8, 2024	Mixture-of-ExpertsMulti-hop Question Answering	—Unverified	0
Accelerating Manufacturing Scale-Up from Material Discovery Using Agentic Web Navigation and Retrieval-Augmented AI for Process Engineering Schematics Design	Dec 8, 2024	Knowledge GraphsOpen-Domain Question Answering	—Unverified	0
SplaXBERT: Leveraging Mixed Precision Training and Context Splitting for Question Answering	Dec 7, 2024	Question Answering	—Unverified	0
SLA Management in Reconfigurable Multi-Agent RAG: A Systems Approach to Question Answering	Dec 7, 2024	ManagementQuestion Answering	—Unverified	0
RSUniVLM: A Unified Vision Language Model for Remote Sensing via Granularity-oriented Mixture of Experts	Dec 7, 2024	Change DetectionImage Comprehension	CodeCode Available	1
Evaluating Hallucination in Text-to-Image Diffusion Models with Scene-Graph based Question-Answering Agent	Dec 7, 2024	HallucinationQuestion Answering	—Unverified	0
KG-Retriever: Efficient Knowledge Indexing for Retrieval-Augmented Large Language Models	Dec 7, 2024	Multi-hop Question AnsweringNavigate	CodeCode Available	1
CharacterBox: Evaluating the Role-Playing Capabilities of LLMs in Text-Based Virtual Worlds	Dec 7, 2024	Question Answering	CodeCode Available	1
TACO: Learning Multi-modal Action Models with Synthetic Chains-of-Thought-and-Action	Dec 7, 2024	Depth EstimationMathematical Reasoning	CodeCode Available	2
PromptRefine: Enhancing Few-Shot Performance on Low-Resource Indic Languages with Example Selection from Related Example Banks	Dec 7, 2024	Cross-Lingual Question AnsweringDiversity	—Unverified	0

Show:10 25 50

← PrevPage 53 of 433Next →

All datasets SQuAD2.0 SQuAD1.1 HotpotQA PIQA BoolQ COPA TriviaQA SQuAD1.1 dev Natural Questions OpenBookQA TruthfulQA MultiRC

Benchmark Results

#	Model	Metric	Claimed	Verified	Status
1	IE-Net (ensemble)	EM	90.94	—	Unverified
2	FPNet (ensemble)	EM	90.87	—	Unverified
3	IE-NetV2 (ensemble)	EM	90.86	—	Unverified
4	SA-Net on Albert (ensemble)	EM	90.72	—	Unverified
5	SA-Net-V2 (ensemble)	EM	90.68	—	Unverified
6	FPNet (ensemble)	EM	90.6	—	Unverified
7	Retro-Reader (ensemble)	EM	90.58	—	Unverified
8	EntitySpanFocusV2 (ensemble)	EM	90.52	—	Unverified
9	TransNets + SFVerifier + SFEnsembler (ensemble)	EM	90.49	—	Unverified
10	EntitySpanFocus+AT (ensemble)	EM	90.45	—	Unverified