June 13, 2024Open Access

SciKnowEval：评估大型语言模型的多层次科学知识

Key Points

Key points are not available for this paper at this time.

Abstract

大型语言模型（LLMs）在科学研究中的广泛应用，迫切需要能够全面评估其科学知识理解与应用能力的先进基准。为满足这一需求，我们引入了SciKnowEval基准，这是一种系统性评估LLMs在五个逐级递进科学知识层面上的新框架：深入学习、认真探究、深刻思考、清晰辨析和刻苦实践。这些层面旨在评估LLMs科学知识的广度与深度，包括知识覆盖范围、探究与探索能力、反思与推理能力、伦理与安全考量，以及实践熟练度。具体而言，我们以生物学和化学作为SciKnowEval的两个实例，构建了涵盖5万条多层次科学问题与解决方案的数据集。借助该数据集，我们采用零样本和少样本提示策略，对20个领先的开源及专有LLMs进行了基准测试。结果显示，尽管专有LLMs已达到最先进水平，但在科学计算和应用方面仍有较大提升空间。我们期望SciKnowEval能够建立起科学研究与发现中评估LLMs的综合标准，推动兼具科学知识与强安全意识的LLMs的发展。数据集与代码公开可获取，网址：https://github.com/hicai-zju/sciknoweval 。

Connected Papers

Building similarity graph...

Analyzing shared references across papers

Discussion

Authors

Kehua Feng

Keyan Ding

Weijie Wang

Actions

References and Citations

Connected Papers

Building similarity graph...

Analyzing shared references across papers

SciKnowEval：评估大型语言模型的多层次科学知识

Key Points

Abstract

Citation Network

Connected Papers

Discussion

Authors

Actions

References and Citations

Citation Network

Connected Papers

Discussion

Cite this study