Question Answering

Question answering can be segmented into domain-specific tasks like community question answering and knowledge-base question answering. Popular benchmark datasets for evaluation question answering systems include SQuAD, HotPotQA, bAbI, TriviaQA, WikiQA, and many others. Models for question answering are typically evaluated on metrics like EM and F1. Some recent top performing models are T5 and XLNet.

( Image credit: SQuAD )

Papers

Recently Added Most Hyped Most Active Needs Verification Most Verified

Showing 851–900 of 10817 papers

Title	Date	Tasks	Status	Hype	Score
Characterizing Truthfulness in Large Language Model Generations with Local Intrinsic Dimension	Feb 28, 2024	Language ModelingLanguage Modelling	CodeCode Available	1	5
Faithful Multimodal Explanation for Visual Question Answering	Sep 8, 2018	Explanatory Visual Question AnsweringQuestion Answering	CodeCode Available	1	5
Connecting the Dots: A Knowledgeable Path Generator for Commonsense Question Answering	May 2, 2020	Knowledge GraphsLanguage Modeling	CodeCode Available	1	5
APOLLO: An Optimized Training Approach for Long-form Numerical Reasoning	Dec 14, 2022	Conversational Question AnsweringDiversity	CodeCode Available	1	5
Constructing Benchmarks and Interventions for Combating Hallucinations in LLMs	Apr 15, 2024	HallucinationLanguage Modeling	CodeCode Available	1	5
Consistency Regularization for Cross-Lingual Fine-Tuning	Jun 15, 2021	Machine TranslationQuestion Answering	CodeCode Available	1	5
Constructing A Multi-hop QA Dataset for Comprehensive Evaluation of Reasoning Steps	Nov 2, 2020	Multi-hop Question AnsweringQuestion Answering	CodeCode Available	1	5
Gracefully Filtering Backdoor Samples for Generative Large Language Models without Retraining	Dec 3, 2024	backdoor defenseComputational Efficiency	CodeCode Available	1	5
Context-Aware Alignment and Mutual Masking for 3D-Language Pre-Training	Jan 1, 2023	3D dense captioning3D visual grounding	CodeCode Available	1	5
Context-Aware Answer Extraction in Question Answering	Nov 5, 2020	Multi-Task LearningPrediction	CodeCode Available	1	5
FedMatch: Federated Learning Over Heterogeneous Question Answering Data	Aug 11, 2021	Federated LearningPrivacy Preserving	CodeCode Available	1	5
Context Awareness Gate For Retrieval Augmented Generation	Nov 25, 2024	Open-Domain Question AnsweringQuestion Answering	CodeCode Available	1	5
AfriQA: Cross-lingual Open-Retrieval Question Answering for African Languages	May 11, 2023	Question AnsweringRetrieval	CodeCode Available	1	5
Contextualized Sparse Representations for Real-Time Open-Domain Question Answering	Nov 7, 2019	Information RetrievalOpen-Domain Question Answering	CodeCode Available	1	5
AI2-THOR: An Interactive 3D Environment for Visual AI	Dec 14, 2017	Deep Reinforcement LearningImitation Learning	CodeCode Available	1	5
CorefQA: Coreference Resolution as Query-based Span Prediction	Jul 1, 2020	coreference-resolutionCoreference Resolution	CodeCode Available	1	5
ConTEXTual Net: A Multimodal Vision-Language Model for Segmentation of Pneumothorax	Mar 2, 2023	DescriptiveImage Captioning	CodeCode Available	1	5
Chain-of-Layer: Iteratively Prompting Large Language Models for Taxonomy Induction from Limited Examples	Feb 12, 2024	In-Context LearningQuestion Answering	CodeCode Available	1	5
ChainCQG: Flow-Aware Conversational Question Generation	Feb 4, 2021	Conversational Question AnsweringQuestion Answering	CodeCode Available	1	5
Expressive Scene Graph Generation Using Commonsense Knowledge Infusion for Visual Understanding and Reasoning	May 31, 2022	Common Sense ReasoningGraph Generation	CodeCode Available	1	5
Extending Context Window of Large Language Models via Semantic Compression	Dec 15, 2023	Few-Shot LearningInformation Retrieval	CodeCode Available	1	5
An Optimal Algorithm for Finding Champions in Tournament Graphs	Nov 26, 2021	Conversational SearchInformation Retrieval	CodeCode Available	1	5
CCQA: A New Web-Scale Question Answering Dataset for Model Pre-Training	Oct 14, 2021	Open-Domain Question AnsweringQuestion Answering	CodeCode Available	1	5
CC-Riddle: A Question Answering Dataset of Chinese Character Riddles	Jun 28, 2022	General KnowledgeLanguage Modelling	CodeCode Available	1	5
CBench: Towards Better Evaluation of Question Answering Over Knowledge Graphs	Apr 5, 2021	BenchmarkingKnowledge Graphs	CodeCode Available	1	5
CBR-RAG: Case-Based Reasoning for Retrieval Augmented Generation in LLMs for Legal Question Answering	Apr 4, 2024	Language ModelingLanguage Modelling	CodeCode Available	1	5
AQuaMuSe: Automatically Generating Datasets for Query-Based Multi-Document Summarization	Oct 23, 2020	Document SummarizationMulti-Document Summarization	CodeCode Available	1	5
ContraDoc: Understanding Self-Contradictions in Documents with Large Language Models	Nov 15, 2023	Document ClassificationQuestion Answering	CodeCode Available	1	5
AIONER: All-in-one scheme-based biomedical named entity recognition using deep learning	Nov 30, 2022	AllMulti-Task Learning	CodeCode Available	1	5
Controllable Generation from Pre-trained Language Models via Inverse Prompting	Mar 19, 2021	Language ModelingLanguage Modelling	CodeCode Available	1	5
Cerbero-7B: A Leap Forward in Language-Specific LLMs Through Enhanced Chat Corpus Generation and Evaluation	Nov 27, 2023	DiversityLanguage Modelling	CodeCode Available	1	5
Contrastive Video Question Answering via Video Graph Transformer	Feb 27, 2023	Contrastive LearningQuestion Answering	CodeCode Available	1	5
AISecKG: Knowledge Graph Dataset for Cybersecurity Education	Mar 30, 2023	Active LearningKnowledge Graphs	CodeCode Available	1	5
ControlLM: Crafting Diverse Personalities for Language Models	Feb 15, 2024	Question Answering	CodeCode Available	1	5
ActiView: Evaluating Active Perception Ability for Multimodal Large Language Models	Oct 7, 2024	Question AnsweringVisual Question Answering	CodeCode Available	1	5
Conversational Question Answering over Passages by Leveraging Word Proximity Networks	Apr 27, 2020	Conversational Question AnsweringInformation Retrieval	CodeCode Available	1	5
Chain-of-Skills: A Configurable Model for Open-domain Question Answering	May 4, 2023	Open-Domain Question AnsweringQuestion Answering	CodeCode Available	1	5
Extracting Definienda in Mathematical Scholarly Articles with Transformers	Nov 21, 2023	ArticlesLanguage Modeling	CodeCode Available	1	5
HCQA @ Ego4D EgoSchema Challenge 2024	Jun 22, 2024	Caption Generation	CodeCode Available	1	5
Hengam: An Adversarially Trained Transformer for Persian Temporal Tagging	Nov 20, 2022	Information RetrievalNamed Entity Recognition (NER)	CodeCode Available	1	5
AraBERT: Transformer-based Model for Arabic Language Understanding	Feb 28, 2020	modelnamed-entity-recognition	CodeCode Available	1	5
ConvoSumm: Conversation Summarization Benchmark and Improved Abstractive Summarization with Argument Mining	Jun 1, 2021	Abstractive Text SummarizationArgument Mining	CodeCode Available	1	5
ArabicaQA: A Comprehensive Dataset for Arabic Question Answering	Mar 26, 2024	BenchmarkingMachine Reading Comprehension	CodeCode Available	1	5
CoQAR: Question Rewriting on CoQA	Jul 7, 2022	Conversational Question AnsweringForm	CodeCode Available	1	5
Exploring the Benefits of Training Expert Language Models over Instruction Tuning	Feb 7, 2023	Common Sense ReasoningCoreference Resolution	CodeCode Available	1	5
Exploring the State of the Art in Legal QA Systems	Apr 13, 2023	ArticlesNatural Language Understanding	CodeCode Available	1	5
Counterfactual Samples Synthesizing and Training for Robust Visual Question Answering	Oct 3, 2021	counterfactualDiagnostic	CodeCode Available	1	5
AraGPT2: Pre-Trained Transformer for Arabic Language Generation	Dec 31, 2020	ArticlesLanguage Modeling	CodeCode Available	1	5
Causal Distillation for Language Models	Dec 5, 2021	Language ModelingLanguage Modelling	CodeCode Available	1	5
CausalChaos! Dataset for Comprehensive Causal Action Question Answering Over Longer Causal Chains Grounded in Dynamic Visual Scenes	Apr 1, 2024	Causal DiscoveryCausal Discovery in Video Reasoning	CodeCode Available	1	5

Show:10 25 50

← PrevPage 18 of 217Next →

All datasets SQuAD2.0 SQuAD1.1 HotpotQA PIQA BoolQ COPA TriviaQA SQuAD1.1 dev Natural Questions OpenBookQA TruthfulQA MultiRC

Benchmark Results

#	Model	Metric	Claimed	Verified	Status
1	IE-Net (ensemble)	EM	90.94	—	Unverified
2	FPNet (ensemble)	EM	90.87	—	Unverified
3	IE-NetV2 (ensemble)	EM	90.86	—	Unverified
4	SA-Net on Albert (ensemble)	EM	90.72	—	Unverified
5	SA-Net-V2 (ensemble)	EM	90.68	—	Unverified
6	FPNet (ensemble)	EM	90.6	—	Unverified
7	Retro-Reader (ensemble)	EM	90.58	—	Unverified
8	EntitySpanFocusV2 (ensemble)	EM	90.52	—	Unverified
9	TransNets + SFVerifier + SFEnsembler (ensemble)	EM	90.49	—	Unverified
10	EntitySpanFocus+AT (ensemble)	EM	90.45	—	Unverified