Question Answering

Question answering can be segmented into domain-specific tasks like community question answering and knowledge-base question answering. Popular benchmark datasets for evaluation question answering systems include SQuAD, HotPotQA, bAbI, TriviaQA, WikiQA, and many others. Models for question answering are typically evaluated on metrics like EM and F1. Some recent top performing models are T5 and XLNet.

( Image credit: SQuAD )

Papers

Recently Added Most Hyped Most Active Needs Verification Most Verified

Showing 3101–3150 of 10817 papers

Title	Date	Tasks	Status
Can MLLMs Generalize to Multi-Party dialog? Exploring Multilingual Response Generation in Complex Scenarios	Jan 20, 2025	Question AnsweringResponse Generation	—Unverified
The Dual-use Dilemma in LLMs: Do Empowering Ethical Capacities Make a Degraded Utility?	Jan 20, 2025	Data AugmentationQuestion Answering	—Unverified
Question-to-Question Retrieval for Hallucination-Free Knowledge Access: An Approach for Wikipedia and Wikidata Question Answering	Jan 20, 2025	Answer GenerationComputational Efficiency	—Unverified
Leveraging Chain of Thought towards Empathetic Spoken Dialogue without Corresponding Question-Answering Data	Jan 19, 2025	Dialogue GenerationQuestion Answering	—Unverified
A Collection of Question Answering Datasets for Norwegian	Jan 19, 2025	Question AnsweringWorld Knowledge	—Unverified
Class-Imbalanced-Aware Adaptive Dataset Distillation for Scalable Pretrained Model on Credit Scoring	Jan 18, 2025	Dataset DistillationQuestion Answering	—Unverified
Can Multimodal LLMs do Visual Temporal Understanding and Reasoning? The answer is No!	Jan 18, 2025	Multiple-choiceQuestion Answering	—Unverified
A Method for Multi-Hop Question Answering on Persian Knowledge Graph	Jan 18, 2025	Graph Question AnsweringInformation Retrieval	—Unverified
Tabular-TX: Theme-Explanation Structure-based Table Summarization via In-Context Learning	Jan 17, 2025	In-Context LearningQuestion Answering	—Unverified
Dialogue Benchmark Generation from Knowledge Graphs with Cost-Effective Retrieval-Augmented LLMs	Jan 17, 2025	Dialogue GenerationKnowledge Graphs	CodeCode Available
Passage Segmentation of Documents for Extractive Question Answering	Jan 17, 2025	ChunkingExtractive Question-Answering	—Unverified
Algorithm for Semantic Network Generation from Texts of Low Resource Languages Such as Kiswahili	Jan 16, 2025	Question Answering	—Unverified
To Retrieve or Not to Retrieve? Uncertainty Detection for Dynamic Retrieval Augmented Generation	Jan 16, 2025	Long Form Question AnsweringQuestion Answering	—Unverified
Double Visual Defense: Adversarial Pre-training and Instruction Tuning for Improving Vision-Language Model Robustness	Jan 16, 2025	Adversarial DefenseAdversarial Robustness	—Unverified
Augmenting a Large Language Model with a Combination of Text and Visual Data for Conversational Visualization of Global Geospatial Data	Jan 16, 2025	Data InteractionDescriptive	—Unverified
Perspective Transition of Large Language Models for Solving Subjective Tasks	Jan 16, 2025	In-Context LearningQuestion Answering	—Unverified
Conversational Text Extraction with Large Language Models Using Retrieval-Augmented Systems	Jan 16, 2025	Question AnsweringRAG	—Unverified
Dynamic Knowledge Integration for Enhanced Vision-Language Reasoning	Jan 15, 2025	Question AnsweringVisual Question Answering	—Unverified
Embodied Scene Understanding for Vision Language Models via MetaVQA	Jan 15, 2025	Decision MakingQuestion Answering	—Unverified
SteLLA: A Structured Grading System Using LLMs with RAG	Jan 15, 2025	Question AnsweringRAG	—Unverified
Admitting Ignorance Helps the Video Question Answering Models to Answer	Jan 15, 2025	Question AnsweringVideo Question Answering	—Unverified
Towards Multilingual LLM Evaluation for Baltic and Nordic languages: A study on Lithuanian History	Jan 15, 2025	Multiple-choiceQuestion Answering	—Unverified
Advice for Diabetes Self-Management by ChatGPT Models: Challenges and Recommendations	Jan 14, 2025	ManagementMisinformation	—Unverified
Reasoning with Graphs: Structuring Implicit Knowledge to Enhance LLMs Reasoning	Jan 14, 2025	Logical ReasoningMulti-hop Question Answering	—Unverified
Talk to Right Specialists: Routing and Planning in Multi-agent System for Question Answering	Jan 14, 2025	Question AnsweringRAG	—Unverified
SAR Strikes Back: A New Hope for RSVQA	Jan 14, 2025	Question AnsweringVisual Question Answering	—Unverified
Investigating Energy Efficiency and Performance Trade-offs in LLM Inference Across Tasks and DVFS Settings	Jan 14, 2025	BenchmarkingQuestion Answering	—Unverified
ASTRID -- An Automated and Scalable TRIaD for the Evaluation of RAG-based Clinical Question Answering Systems	Jan 14, 2025	Question AnsweringRAG	—Unverified
The Quest for Visual Understanding: A Journey Through the Evolution of Visual Question Answering	Jan 13, 2025	Common Sense ReasoningQuestion Answering	—Unverified
Parallel Key-Value Cache Fusion for Position Invariant RAG	Jan 13, 2025	DecoderOpen-Domain Question Answering	—Unverified
ADKGD: Anomaly Detection in Knowledge Graphs with Dual-Channel Training	Jan 13, 2025	Anomaly DetectionKnowledge Graphs	CodeCode Available
TimeLogic: A Temporal Logic Benchmark for Video QA	Jan 13, 2025	2kAction Segmentation	—Unverified
Language Fusion for Parameter-Efficient Cross-lingual Transfer	Jan 12, 2025	Cross-Lingual TransferNatural Language Inference	CodeCode Available
GeoPix: Multi-Modal Large Language Model for Pixel-level Image Understanding in Remote Sensing	Jan 12, 2025	Image CaptioningLanguage Modeling	—Unverified
Fine-tuning Large Language Models for Improving Factuality in Legal Question Answering	Jan 11, 2025	HallucinationQuestion Answering	CodeCode Available
First Token Probability Guided RAG for Telecom Question Answering	Jan 11, 2025	Multiple-choiceMultiple Choice Question Answering (MCQA)	—Unverified
How to Tune a Multilingual Encoder Model for Germanic Languages: A Study of PEFT, Full Fine-Tuning, and Language Adapters	Jan 10, 2025	named-entity-recognitionNamed Entity Recognition	CodeCode Available
Overcoming Language Priors for Visual Question Answering Based on Knowledge Distillation	Jan 10, 2025	Knowledge DistillationQuestion Answering	—Unverified
Finnish SQuAD: A Simple Approach to Machine Translation of Span Annotations	Jan 10, 2025	Machine TranslationQuestion Answering	—Unverified
Bactrainus: Optimizing Large Language Models for Multi-hop Complex Question Answering Tasks	Jan 10, 2025	Multi-hop Question AnsweringNatural Language Understanding	—Unverified
Fleurs-SLU: A Massively Multilingual Benchmark for Spoken Language Understanding	Jan 10, 2025	Automatic Speech RecognitionClassification	CodeCode Available
Multi-Agent Collaboration Mechanisms: A Survey of LLMs	Jan 10, 2025	Question AnsweringSurvey	CodeCode Available
PEACE: Empowering Geologic Map Holistic Understanding with MLLMs	Jan 10, 2025	Question Answering	—Unverified
SUGAR: Leveraging Contextual Confidence for Smarter Retrieval	Jan 9, 2025	Question AnsweringRAG	—Unverified
LLaVA-Octopus: Unlocking Instruction-Driven Adaptive Projector Fusion for Video Understanding	Jan 9, 2025	Language ModelingLanguage Modelling	—Unverified
Commonsense Video Question Answering through Video-Grounded Entailment Tree Reasoning	Jan 9, 2025	BenchmarkingQuestion Answering	—Unverified
Knowledge Retrieval Based on Generative AI	Jan 8, 2025	Large Language ModelMultiple-choice	—Unverified
TimelineKGQA: A Comprehensive Question-Answer Pair Generator for Temporal Knowledge Graphs	Jan 8, 2025	Knowledge GraphsQuestion Answering	CodeCode Available
Statistical Uncertainty Quantification for Aggregate Performance Metrics in Machine Learning Benchmarks	Jan 8, 2025	Question AnsweringUncertainty Quantification	—Unverified
Feedback-Driven Vision-Language Alignment with Minimal Human Supervision	Jan 8, 2025	HallucinationQuestion Answering	—Unverified

Show:10 25 50

← PrevPage 63 of 217Next →

All datasets SQuAD2.0 SQuAD1.1 HotpotQA PIQA BoolQ COPA TriviaQA SQuAD1.1 dev Natural Questions OpenBookQA TruthfulQA MultiRC

Benchmark Results

#	Model	Metric	Claimed	Verified	Status
1	IE-Net (ensemble)	EM	90.94	—	Unverified
2	FPNet (ensemble)	EM	90.87	—	Unverified
3	IE-NetV2 (ensemble)	EM	90.86	—	Unverified
4	SA-Net on Albert (ensemble)	EM	90.72	—	Unverified
5	SA-Net-V2 (ensemble)	EM	90.68	—	Unverified
6	FPNet (ensemble)	EM	90.6	—	Unverified
7	Retro-Reader (ensemble)	EM	90.58	—	Unverified
8	EntitySpanFocusV2 (ensemble)	EM	90.52	—	Unverified
9	TransNets + SFVerifier + SFEnsembler (ensemble)	EM	90.49	—	Unverified
10	EntitySpanFocus+AT (ensemble)	EM	90.45	—	Unverified