Question Answering

Question answering can be segmented into domain-specific tasks like community question answering and knowledge-base question answering. Popular benchmark datasets for evaluation question answering systems include SQuAD, HotPotQA, bAbI, TriviaQA, WikiQA, and many others. Models for question answering are typically evaluated on metrics like EM and F1. Some recent top performing models are T5 and XLNet.

( Image credit: SQuAD )

Papers

Recently Added Most Hyped Most Active Needs Verification Most Verified

Showing 3301–3350 of 10817 papers

Title	Date	Tasks	Status
Progressive Multi-granular Alignments for Grounded Reasoning in Large Vision-Language Models	Dec 11, 2024	Question AnsweringVisual Grounding	CodeCode Available
Discrete Subgraph Sampling for Interpretable Graph based Visual Question Answering	Dec 11, 2024	Explainable artificial intelligenceExplainable Artificial Intelligence (XAI)	CodeCode Available
DialogAgent: An Auto-engagement Agent for Code Question Answering Data Production	Dec 11, 2024	Code GenerationQuestion Answering	—Unverified
Barking Up The Syntactic Tree: Enhancing VLM Training with Syntactic Losses	Dec 11, 2024	Image-text RetrievalQuestion Answering	—Unverified
In-Context Learning with Topological Information for Knowledge Graph Completion	Dec 11, 2024	In-Context LearningInformation Retrieval	—Unverified
A Multimodal Social Agent	Dec 11, 2024	Common Sense ReasoningDecision Making	—Unverified
How Vision-Language Tasks Benefit from Large Pre-trained Models: A Survey	Dec 11, 2024	Image CaptioningQuestion Answering	—Unverified
AutoPrep: Natural Language Question-Aware Data Preparation with a Multi-Agent Framework	Dec 10, 2024	Code GenerationLarge Language Model	—Unverified
RAG-based Question Answering over Heterogeneous Data and Text	Dec 10, 2024	Answer GenerationKnowledge Graphs	—Unverified
Piece of Table: A Divide-and-Conquer Approach for Selecting Sub-Tables in Table Question Answering	Dec 10, 2024	Question AnsweringTable-based Question Answering	—Unverified
Ontology-Aware RAG for Improved Question-Answering in Cybersecurity Education	Dec 10, 2024	Question AnsweringRAG	—Unverified
MM-PoE: Multiple Choice Reasoning via. Process of Elimination using Multi-Modal Models	Dec 10, 2024	Multiple-choiceQuestion Answering	CodeCode Available
PediaBench: A Comprehensive Chinese Pediatric Dataset for Benchmarking Large Language Models	Dec 9, 2024	BenchmarkingInstruction Following	CodeCode Available
FM2DS: Few-Shot Multimodal Multihop Data Synthesis with Knowledge Distillation for Question Answering	Dec 9, 2024	Knowledge DistillationQuestion Answering	CodeCode Available
3D Spatial Understanding in MLLMs: Disambiguation and Evaluation	Dec 9, 2024	3D dense captioning3D visual grounding	—Unverified
Ranked from Within: Ranking Large Multimodal Models for Visual Question Answering Without Labels	Dec 9, 2024	Question AnsweringVisual Question Answering	—Unverified
1-800-SHARED-TASKS at RegNLP: Lexical Reranking of Semantic Retrieval (LeSeR) for Regulatory Question Answering	Dec 8, 2024	Answer GenerationDomain Adaptation	—Unverified
An Entailment Tree Generation Approach for Multimodal Multi-Hop Question Answering with Mixture-of-Experts and Iterative Feedback Mechanism	Dec 8, 2024	Mixture-of-ExpertsMulti-hop Question Answering	—Unverified
Accelerating Manufacturing Scale-Up from Material Discovery Using Agentic Web Navigation and Retrieval-Augmented AI for Process Engineering Schematics Design	Dec 8, 2024	Knowledge GraphsOpen-Domain Question Answering	—Unverified
SplaXBERT: Leveraging Mixed Precision Training and Context Splitting for Question Answering	Dec 7, 2024	Question Answering	—Unverified
PromptRefine: Enhancing Few-Shot Performance on Low-Resource Indic Languages with Example Selection from Related Example Banks	Dec 7, 2024	Cross-Lingual Question AnsweringDiversity	—Unverified
Evaluating Hallucination in Text-to-Image Diffusion Models with Scene-Graph based Question-Answering Agent	Dec 7, 2024	HallucinationQuestion Answering	—Unverified
SLA Management in Reconfigurable Multi-Agent RAG: A Systems Approach to Question Answering	Dec 7, 2024	ManagementQuestion Answering	—Unverified
Question Answering for Decisionmaking in Green Building Design: A Multimodal Data Reasoning Method Driven by Large Language Models	Dec 6, 2024	Decision MakingQuestion Answering	—Unverified
EACO: Enhancing Alignment in Multimodal LLMs via Critical Observation	Dec 6, 2024	MMEQuestion Answering	—Unverified
Knowledge Graphs are all you need: Leveraging KGs in Physics Question Answering	Dec 6, 2024	AllKnowledge Graphs	—Unverified
Steps are all you need: Rethinking STEM Education with Prompt Engineering	Dec 6, 2024	AllHallucination	—Unverified
Findings of the Second BabyLM Challenge: Sample-Efficient Pretraining on Developmentally Plausible Corpora	Dec 6, 2024	Language ModelingLanguage Modelling	—Unverified
KaLM: Knowledge-aligned Autoregressive Language Modeling via Dual-view Knowledge Graph Contrastive Learning	Dec 6, 2024	Contrastive LearningGraph Question Answering	—Unverified
Synergizing LLMs and Knowledge Graphs: A Novel Approach to Software Repository-Related Question Answering	Dec 5, 2024	Knowledge GraphsQuestion Answering	—Unverified
SynFinTabs: A Dataset of Synthetic Financial Tables for Information and Table Extraction	Dec 5, 2024	ArticlesDataset Generation	CodeCode Available
Uniform Discretized Integrated Gradients: An effective attribution based method for explaining large language models	Dec 5, 2024	BenchmarkingFeature Importance	—Unverified
GRAF: Graph Retrieval Augmented by Facts for Romanian Legal Multi-Choice Question Answering	Dec 5, 2024	Information RetrievalMultiple-choice	—Unverified
TANGO: Training-free Embodied AI Agents for Open-world Tasks	Dec 5, 2024	Embodied Question AnsweringObjectGoal Navigation	—Unverified
Addressing Hallucinations with RAG and NMISS in Italian Healthcare LLM Chatbots	Dec 5, 2024	ArticlesQuestion Answering	—Unverified
Give me Some Hard Questions: Synthetic Data Generation for Clinical QA	Dec 5, 2024	Question AnsweringQuestion Generation	CodeCode Available
T2I-FactualBench: Benchmarking the Factuality of Text-to-Image Models with Knowledge-Intensive Concepts	Dec 5, 2024	BenchmarkingImage Generation	—Unverified
Comprehensive Audio Query Handling System with Integrated Expert Models and Contextual Understanding	Dec 5, 2024	Audio GenerationAutomatic Speech Recognition	—Unverified
RedStone: Curating General, Code, Math, and QA Data for Large Language Models	Dec 4, 2024	Domain AdaptationMath	—Unverified
Survey of different Large Language Model Architectures: Trends, Benchmarks, and Challenges	Dec 4, 2024	Code GenerationImage Comprehension	—Unverified
Domain-specific Question Answering with Hybrid Search	Dec 4, 2024	Question AnsweringRetrieval	—Unverified
CEGI: Measuring the trade-off between efficiency and carbon emissions for SLMs and VLMs	Dec 3, 2024	Image CaptioningQuantization	—Unverified
Semantic Tokens in Retrieval Augmented Generation	Dec 3, 2024	Decision MakingQuestion Answering	—Unverified
Enhancing Trust in Large Language Models with Uncertainty-Aware Fine-Tuning	Dec 3, 2024	Causal Language ModelingLanguage Modeling	—Unverified
An Evolutionary Large Language Model for Hallucination Mitigation	Dec 3, 2024	Dataset GenerationHallucination	—Unverified
QA-TOOLBOX: Conversational Question-Answering for process task guidance in manufacturing	Dec 3, 2024	Conversational Question AnsweringData Augmentation	—Unverified
Hybrid-SQuAD: Hybrid Scholarly Question Answering Dataset	Dec 3, 2024	Knowledge GraphsLanguage Modeling	—Unverified
Explainable and Interpretable Multimodal Large Language Models: A Comprehensive Survey	Dec 3, 2024	Cross-Modal RetrievalNatural Language Understanding	—Unverified
Copy-Move Forgery Detection and Question Answering for Remote Sensing Image	Dec 3, 2024	Question AnsweringVisual Question Answering	CodeCode Available
MLD-EA: Check and Complete Narrative Coherence by Introducing Emotions and Actions	Dec 3, 2024	Question AnsweringStory Generation	—Unverified

Show:10 25 50

← PrevPage 67 of 217Next →

All datasets SQuAD2.0 SQuAD1.1 HotpotQA PIQA BoolQ COPA TriviaQA SQuAD1.1 dev Natural Questions OpenBookQA TruthfulQA MultiRC

Benchmark Results

#	Model	Metric	Claimed	Verified	Status
1	IE-Net (ensemble)	EM	90.94	—	Unverified
2	FPNet (ensemble)	EM	90.87	—	Unverified
3	IE-NetV2 (ensemble)	EM	90.86	—	Unverified
4	SA-Net on Albert (ensemble)	EM	90.72	—	Unverified
5	SA-Net-V2 (ensemble)	EM	90.68	—	Unverified
6	FPNet (ensemble)	EM	90.6	—	Unverified
7	Retro-Reader (ensemble)	EM	90.58	—	Unverified
8	EntitySpanFocusV2 (ensemble)	EM	90.52	—	Unverified
9	TransNets + SFVerifier + SFEnsembler (ensemble)	EM	90.49	—	Unverified
10	EntitySpanFocus+AT (ensemble)	EM	90.45	—	Unverified