Question Answering

Question answering can be segmented into domain-specific tasks like community question answering and knowledge-base question answering. Popular benchmark datasets for evaluation question answering systems include SQuAD, HotPotQA, bAbI, TriviaQA, WikiQA, and many others. Models for question answering are typically evaluated on metrics like EM and F1. Some recent top performing models are T5 and XLNet.

( Image credit: SQuAD )

Papers

Recently Added Most Hyped Most Active Needs Verification Most Verified

Showing 1001–1050 of 10817 papers

Title	Date	Tasks	Status	Hype
Survey of Natural Language Processing for Education: Taxonomy, Systematic Review, and Future Trends	Jan 15, 2024	Question Answering	CodeCode Available	1
Are self-explanations from Large Language Models faithful?	Jan 15, 2024	counterfactualFaithfulness Critic	CodeCode Available	1
The Unreasonable Effectiveness of Easy Training Data for Hard Tasks	Jan 12, 2024	General KnowledgeIn-Context Learning	CodeCode Available	1
Cross-modal Retrieval for Knowledge-based Visual Question Answering	Jan 11, 2024	Cross-Modal RetrievalQuestion Answering	CodeCode Available	1
Improving Large Language Models via Fine-grained Reinforcement Learning with Minimum Editing Constraint	Jan 11, 2024	Question AnsweringReinforcement Learning (RL)	CodeCode Available	1
MISS: A Generative Pretraining and Finetuning Approach for Med-VQA	Jan 10, 2024	Medical Visual Question AnsweringMulti-Task Learning	CodeCode Available	1
Model Editing Harms General Abilities of Large Language Models: Regularization to the Rescue	Jan 9, 2024	Model EditingNatural Language Inference	CodeCode Available	1
The Critique of Critique	Jan 9, 2024	Question Answering	CodeCode Available	1
Building Efficient and Effective OpenQA Systems for Low-Resource Languages	Jan 7, 2024	Machine TranslationQuestion Answering	CodeCode Available	1
Glance and Focus: Memory Prompting for Multi-Event Video Question Answering	Jan 3, 2024	Action DetectionHuman-Object Interaction Detection	CodeCode Available	1
Sports-QA: A Large-Scale Video Question Answering Benchmark for Complex and Professional Sports	Jan 3, 2024	Action Understandingcounterfactual	CodeCode Available	1
GeoGalactica: A Scientific Large Language Model in Geoscience	Dec 31, 2023	Document ClassificationGeneral Knowledge	CodeCode Available	1
Mitigating the Impact of False Negatives in Dense Retrieval with Contrastive Confidence Regularization	Dec 30, 2023	Answer GenerationContrastive Learning	CodeCode Available	1
A Simple LLM Framework for Long-Range Video Question-Answering	Dec 28, 2023	EgoSchemaLanguage Modelling	CodeCode Available	1
MR-GSM8K: A Meta-Reasoning Benchmark for Large Language Model Evaluation	Dec 28, 2023	GSM8KLanguage Model Evaluation	CodeCode Available	1
PokeMQA: Programmable knowledge editing for Multi-hop Question Answering	Dec 23, 2023	Answer Generationknowledge editing	CodeCode Available	1
Reverse Multi-Choice Dialogue Commonsense Inference with Graph-of-Thought	Dec 23, 2023	Question Answering	CodeCode Available	1
EarthVQA: Towards Queryable Earth via Relational Reasoning-Based Remote Sensing Visual Question Answering	Dec 19, 2023	ObjectObject Counting	CodeCode Available	1
On Early Detection of Hallucinations in Factual Question Answering	Dec 19, 2023	HallucinationOpen-Ended Question Answering	CodeCode Available	1
HAAR: Text-Conditioned Generative Model of 3D Strand-based Human Hairstyles	Dec 18, 2023	Question AnsweringVisual Question Answering	CodeCode Available	1
Extending Context Window of Large Language Models via Semantic Compression	Dec 15, 2023	Few-Shot LearningInformation Retrieval	CodeCode Available	1
Privacy-Aware Document Visual Question Answering	Dec 15, 2023	document understandingFederated Learning	CodeCode Available	1
Lever LM: Configuring In-Context Sequence to Lever Large Vision Language Models	Dec 15, 2023	Image CaptioningIn-Context Learning	CodeCode Available	1
RJUA-QA: A Comprehensive QA Dataset for Urology	Dec 15, 2023	DiagnosticQuestion Answering	CodeCode Available	1
WordScape: a Pipeline to extract multilingual, visually rich Documents with Layout Annotations from Web Crawl Data	Dec 15, 2023	document understandingQuestion Answering	CodeCode Available	1
VL-GPT: A Generative Pre-trained Transformer for Vision and Language Understanding and Generation	Dec 14, 2023	Image CaptioningImage Generation	CodeCode Available	1
ViLA: Efficient Video-Language Alignment for Video Question Answering	Dec 13, 2023	cross-modal alignmentLanguage Modeling	CodeCode Available	1
NuScenes-MQA: Integrated Evaluation of Captions and QA for Autonomous Driving Datasets using Markup Annotations	Dec 11, 2023	Autonomous DrivingDescriptive	CodeCode Available	1
Genixer: Empowering Multimodal Large Language Models as a Powerful Data Generator	Dec 11, 2023	Image CaptioningQuestion Answering	CodeCode Available	1
LifelongMemory: Leveraging LLMs for Answering Queries in Long-form Egocentric Videos	Dec 7, 2023	EgoSchemaForm	CodeCode Available	1
PCoQA: Persian Conversational Question Answering Dataset	Dec 7, 2023	Conversational Question AnsweringQuestion Answering	CodeCode Available	1
Language-Informed Visual Concept Learning	Dec 6, 2023	DisentanglementNovel Concepts	CodeCode Available	1
Let the LLMs Talk: Simulating Human-to-Human Conversational QA via Zero-Shot LLM-to-LLM Interactions	Dec 5, 2023	BenchmarkingConversational Question Answering	CodeCode Available	1
Good Questions Help Zero-Shot Image Reasoning	Dec 4, 2023	Fine-Grained Image ClassificationQuestion Answering	CodeCode Available	1
How to Configure Good In-Context Sequence for Visual Question Answering	Dec 4, 2023	In-Context LearningQuestion Answering	CodeCode Available	1
Recursive Visual Programming	Dec 4, 2023	Code GenerationQuestion Answering	CodeCode Available	1
Ascle: A Python Natural Language Processing Toolkit for Medical Text Generation	Nov 28, 2023	Machine TranslationQuestion Answering	CodeCode Available	1
Emergent Open-Vocabulary Semantic Segmentation from Off-the-shelf Vision-Language Models	Nov 28, 2023	Image CaptioningImage-text matching	CodeCode Available	1
EgoThink: Evaluating First-Person Perspective Thinking Capability of Vision-Language Models	Nov 27, 2023	AttributeQuestion Answering	CodeCode Available	1
Video-Bench: A Comprehensive Benchmark and Toolkit for Evaluating Video-based Large Language Models	Nov 27, 2023	Decision MakingQuestion Answering	CodeCode Available	1
Cerbero-7B: A Leap Forward in Language-Specific LLMs Through Enhanced Chat Corpus Generation and Evaluation	Nov 27, 2023	DiversityLanguage Modelling	CodeCode Available	1
Increasing Coverage and Precision of Textual Information in Multilingual Knowledge Graphs	Nov 27, 2023	Entity LinkingKnowledge Graph Completion	CodeCode Available	1
AutoEval-Video: An Automatic Benchmark for Assessing Large Vision Language Models in Open-Ended Video Question Answering	Nov 25, 2023	Question AnsweringVideo Question Answering	CodeCode Available	1
Extracting Definienda in Mathematical Scholarly Articles with Transformers	Nov 21, 2023	ArticlesLanguage Modeling	CodeCode Available	1
nach0: Multimodal Natural and Chemical Languages Foundation Model	Nov 21, 2023	Decodermodel	CodeCode Available	1
CSMeD: Bridging the Dataset Gap in Automated Citation Screening for Systematic Literature Reviews	Nov 21, 2023	Question AnsweringRetrieval	CodeCode Available	1
Taiyi: A Bilingual Fine-Tuned Large Language Model for Diverse Biomedical Tasks	Nov 20, 2023	Language ModelingLanguage Modelling	CodeCode Available	1
DynaPipe: Optimizing Multi-task Training through Dynamic Pipelines	Nov 17, 2023	Language ModellingLarge Language Model	CodeCode Available	1
Examining LLMs' Uncertainty Expression Towards Questions Outside Parametric Knowledge	Nov 16, 2023	Question Answeringvalid	CodeCode Available	1
ContraDoc: Understanding Self-Contradictions in Documents with Large Language Models	Nov 15, 2023	Document ClassificationQuestion Answering	CodeCode Available	1

Show:10 25 50

← PrevPage 21 of 217Next →

All datasets SQuAD2.0 SQuAD1.1 HotpotQA PIQA BoolQ COPA TriviaQA SQuAD1.1 dev Natural Questions OpenBookQA TruthfulQA MultiRC

Benchmark Results

#	Model	Metric	Claimed	Verified	Status
1	IE-Net (ensemble)	EM	90.94	—	Unverified
2	FPNet (ensemble)	EM	90.87	—	Unverified
3	IE-NetV2 (ensemble)	EM	90.86	—	Unverified
4	SA-Net on Albert (ensemble)	EM	90.72	—	Unverified
5	SA-Net-V2 (ensemble)	EM	90.68	—	Unverified
6	FPNet (ensemble)	EM	90.6	—	Unverified
7	Retro-Reader (ensemble)	EM	90.58	—	Unverified
8	EntitySpanFocusV2 (ensemble)	EM	90.52	—	Unverified
9	TransNets + SFVerifier + SFEnsembler (ensemble)	EM	90.49	—	Unverified
10	EntitySpanFocus+AT (ensemble)	EM	90.45	—	Unverified