Key points are not available for this paper at this time.
大型语言模型(LLMs)在科学研究中的广泛应用,迫切需要能够全面评估其科学知识理解与应用能力的先进基准。为满足这一需求,我们引入了SciKnowEval基准,这是一种系统性评估LLMs在五个逐级递进科学知识层面上的新框架:深入学习、认真探究、深刻思考、清晰辨析和刻苦实践。这些层面旨在评估LLMs科学知识的广度与深度,包括知识覆盖范围、探究与探索能力、反思与推理能力、伦理与安全考量,以及实践熟练度。具体而言,我们以生物学和化学作为SciKnowEval的两个实例,构建了涵盖5万条多层次科学问题与解决方案的数据集。借助该数据集,我们采用零样本和少样本提示策略,对20个领先的开源及专有LLMs进行了基准测试。结果显示,尽管专有LLMs已达到最先进水平,但在科学计算和应用方面仍有较大提升空间。我们期望SciKnowEval能够建立起科学研究与发现中评估LLMs的综合标准,推动兼具科学知识与强安全意识的LLMs的发展。数据集与代码公开可获取,网址:https://github.com/hicai-zju/sciknoweval 。
Building similarity graph...
Analyzing shared references across papers
Loading...
Kehua Feng
Keyan Ding
Weijie Wang
Building similarity graph...
Analyzing shared references across papers
Loading...
Feng 等人(Thu,)研究了这一问题。
www.synapsesocial.com/papers/68e64e7db6db6435875decf0 — DOI: https://doi.org/10.48550/arxiv.2406.09098