General Knowledge

This task aims to evaluate the ability of a model to answer general-knowledge questions.

Papers

Recently Added Most Hyped Most Active Needs Verification Most Verified

Showing 201–250 of 399 papers

Title	Date	Tasks	Status
What Would You Ask When You First Saw a^2+b^2=c^2? Evaluating LLM on Curiosity-Driven Questioning	Sep 19, 2024	General Knowledge	—Unverified
Bilingual Evaluation of Language Models on General Knowledge in University Entrance Exams with Minimal Contamination	Sep 19, 2024	General KnowledgeMMLU	—Unverified
Can LVLMs Obtain a Driver's License? A Benchmark Towards Reliable AGI for Autonomous Driving	Sep 4, 2024	Autonomous DrivingDecision Making	—Unverified
Biomedical Large Languages Models Seem not to be Superior to Generalist Models on Unseen Medical Data	Aug 25, 2024	Document SummarizationGeneral Knowledge	—Unverified
CoRA: Collaborative Information Perception by Large Language Model's Weights for Recommendation	Aug 20, 2024	Collaborative FilteringGeneral Knowledge	—Unverified
Molecular Graph Representation Learning Integrating Large Language Models with Domain-specific Small Models	Aug 19, 2024	DescriptiveDrug Discovery	CodeCode Available
PMoE: Progressive Mixture of Experts with Asymmetric Transformer for Continual Learning	Jul 31, 2024	Continual LearningGeneral Knowledge	—Unverified
Prompting Encoder Models for Zero-Shot Classification: A Cross-Domain Study in Italian	Jul 30, 2024	Document ClassificationEntity Typing	—Unverified
Constructing Enhanced Mutual Information for Online Class-Incremental Learning	Jul 26, 2024	class-incremental learningClass Incremental Learning	—Unverified
An Ad-hoc graph node vector embedding algorithm for general knowledge graphs using Kinetica-Graph	Jul 22, 2024	General KnowledgeKnowledge Graphs	—Unverified
Quantized Prompt for Efficient Generalization of Vision-Language Models	Jul 15, 2024	General KnowledgeLanguage Modelling	CodeCode Available
All Roads Lead to Rome: Unveiling the Trajectory of Recommender Systems Across the LLM Era	Jul 14, 2024	AllConversational Recommendation	—Unverified
Microsoft Cloud-based Digitization Workflow with Rich Metadata Acquisition for Cultural Heritage Objects	Jul 9, 2024	General Knowledge	—Unverified
Igea: a Decoder-Only Language Model for Biomedical Text Generation in Italian	Jul 8, 2024	Computational EfficiencyDecoder	—Unverified
SAM-Med3D-MoE: Towards a Non-Forgetting Segment Anything Model via Mixture of Experts for 3D Medical Image Segmentation	Jul 6, 2024	General KnowledgeImage Segmentation	—Unverified
SAFT: Towards Out-of-Distribution Generalization in Fine-Tuning	Jul 3, 2024	Few-Shot LearningGeneral Knowledge	—Unverified
BAPO: Base-Anchored Preference Optimization for Overcoming Forgetting in Large Language Models Personalization	Jun 30, 2024	Continual LearningGeneral Knowledge	—Unverified
Leveraging Large Language Models for enhanced personalised user experience in Smart Homes	Jun 28, 2024	General Knowledge	—Unverified
Disentangling Knowledge-based and Visual Reasoning by Question Decomposition in KB-VQA	Jun 27, 2024	General KnowledgeQuestion Answering	—Unverified
Exploring Safety-Utility Trade-Offs in Personalized Language Models	Jun 17, 2024	General Knowledge	—Unverified
Are Large Language Models a Good Replacement of Taxonomies?	Jun 17, 2024	General KnowledgeKnowledge Graphs	CodeCode Available
RepLiQA: A Question-Answering Dataset for Benchmarking LLMs on Unseen Reference Content	Jun 17, 2024	BenchmarkingGeneral Knowledge	CodeCode Available
Avoiding Copyright Infringement via Large Language Model Unlearning	Jun 16, 2024	General KnowledgeLanguage Modeling	CodeCode Available
Benchmarking Generative Models on Computational Thinking Tests in Elementary Visual Programming	Jun 14, 2024	BenchmarkingGeneral Knowledge	—Unverified
Learning from Natural Language Explanations for Generalizable Entity Matching	Jun 13, 2024	Binary ClassificationDomain Generalization	—Unverified
Generative Explore-Exploit: Training-free Optimization of Generative Recommender Systems using LLM Optimizers	Jun 7, 2024	General KnowledgeQuestion Generation	—Unverified
ContextFlow++: Generalist-Specialist Flow-based Generative Models with Mixed-Variable Context Encoding	Jun 2, 2024	Anomaly DetectionDensity Estimation	CodeCode Available
SOK-Bench: A Situated Video Reasoning Benchmark with Aligned Open-World Knowledge	May 15, 2024	General KnowledgeKnowledge Graphs	—Unverified
MoST: Multi-modality Scene Tokenization for Motion Prediction	Apr 30, 2024	General Knowledgemotion prediction	—Unverified
Towards Generalizable Agents in Text-Based Educational Environments: A Study of Integrating RL with LLMs	Apr 29, 2024	DiagnosticGeneral Knowledge	—Unverified
Enhancing Action Recognition from Low-Quality Skeleton Data via Part-Level Knowledge Distillation	Apr 28, 2024	Action RecognitionGeneral Knowledge	—Unverified
Evaluating Consistency and Reasoning Capabilities of Large Language Models	Apr 25, 2024	General KnowledgeText Generation	—Unverified
Learning Electromagnetic Metamaterial Physics With ChatGPT	Apr 23, 2024	General Knowledge	—Unverified
When Life gives you LLMs, make LLM-ADE: Large Language Models with Adaptive Data Engineering	Apr 19, 2024	General Knowledge	—Unverified
Pretraining and Updates of Domain-Specific LLM: A Case Study in the Japanese Business Domain	Apr 12, 2024	Continual PretrainingGeneral Knowledge	—Unverified
Knowledge graphs for empirical concept retrieval	Apr 10, 2024	General KnowledgeKnowledge Graphs	CodeCode Available
Eraser: Jailbreaking Defense in Large Language Models via Unlearning Harmful Knowledge	Apr 8, 2024	General KnowledgeSafety Alignment	CodeCode Available
Juru: Legal Brazilian Large Language Model from Reputable Sources	Mar 26, 2024	General KnowledgeLanguage Modeling	—Unverified
Are LLMs Good Cryptic Crossword Solvers?	Mar 15, 2024	General Knowledge	—Unverified
DiPrompT: Disentangled Prompt Tuning for Multiple Latent Domain Generalization in Federated Learning	Mar 11, 2024	Domain GeneralizationFederated Learning	—Unverified
Deep Prompt Multi-task Network for Abuse Language Detection	Mar 8, 2024	Abusive LanguageGeneral Knowledge	—Unverified
K-Link: Knowledge-Link Graph from LLMs for Enhanced Representation Learning in Multivariate Time-Series Data	Mar 6, 2024	General Knowledgegraph construction	—Unverified
Pruning neural network models for gene regulatory dynamics using data and domain knowledge	Mar 5, 2024	General KnowledgeNetwork Pruning	CodeCode Available
Bootstrapping Cognitive Agents with a Large Language Model	Feb 25, 2024	General KnowledgeLanguage Modeling	—Unverified
Inductive Graph Alignment Prompt: Bridging the Gap between Graph Pre-training and Inductive Fine-tuning From Spectral Perspective	Feb 21, 2024	General KnowledgeGraph Classification	—Unverified
GALA: Generating Animatable Layered Assets from a Single Scan	Jan 23, 2024	3D geometryGeneral Knowledge	—Unverified
INCPrompt: Task-Aware incremental Prompting for Rehearsal-Free Class-incremental Learning	Jan 22, 2024	class-incremental learningClass Incremental Learning	—Unverified
KD-DETR: Knowledge Distillation for Detection Transformer with Consistent Distillation Points Sampling	Jan 1, 2024	General KnowledgeKnowledge Distillation	—Unverified
A Unified Industrial Large Knowledge Model Framework in Industry 4.0 and Smart Manufacturing	Dec 22, 2023	General Knowledge	—Unverified
Fed-CO2: Cooperation of Online and Offline Models for Severe Data Heterogeneity in Federated Learning	Dec 21, 2023	Domain GeneralizationFederated Learning	CodeCode Available

Show:10 25 50

← PrevPage 5 of 8Next →

Benchmark Results

#	Model	Metric	Claimed	Verified	Status
1	Chinchilla-70B (few-shot, k=5)	Accuracy	94.3	—	Unverified
2	Gopher-280B (few-shot, k=5)	Accuracy	93.9	—	Unverified
3	Chinchilla-70B (few-shot, k=5)	Accuracy	85.7	—	Unverified
4	Gopher-280B (few-shot, k=5)	Accuracy	84.8	—	Unverified
5	Gopher-280B (few-shot, k=5)	Accuracy	84.2	—	Unverified
6	Gopher-280B (few-shot, k=5)	Accuracy	84.1	—	Unverified
7	Gopher-280B (few-shot, k=5)	Accuracy	83.9	—	Unverified
8	Gopher-280B (few-shot, k=5)	Accuracy	83.3	—	Unverified
9	Gopher-280B (few-shot, k=5)	Accuracy	81.8	—	Unverified
10	Gopher-280B (few-shot, k=5)	Accuracy	81	—	Unverified