March 24, 2024Open Access

SciEval: 과학 연구를 위한 다단계 대형 언어 모델 평가 벤치마크

Key Points

Key points are not available for this paper at this time.

Abstract

최근 대형 언어 모델(LLM)을 과학 연구에 활용하려는 관심이 증가하고 있습니다. LLM의 과학 연구 능력을 평가하기 위한 수많은 벤치마크가 제안되었으나, 현재 벤치마크들은 주로 사전에 수집된 객관식 질문에 기반하고 있어 데이터 유출 문제와 주관식 질문/답변 능력 평가 부족의 한계를 갖고 있습니다. 본 논문에서는 이러한 문제를 해결하기 위해 포괄적이고 다학제적인 평가 벤치마크인 SciEval을 제안합니다. Bloom의 분류법에 기반하여 SciEval은 과학 연구 능력을 체계적으로 평가하기 위해 네 가지 차원을 포함합니다. 특히 과학 원리에 기반한 "동적" 하위 집합을 설계하여 평가 과정에서의 잠재적 데이터 유출을 방지합니다. SciEval에는 객관식과 주관식 질문이 모두 포함되어 있습니다. 이러한 특징들로 인해 SciEval은 LLM의 과학 연구 능력 평가에 보다 효과적인 벤치마크가 됩니다. 최첨단 LLM들에 대한 종합 실험 결과, GPT-4가 다른 LLM 대비 최첨단 성능을 보이지만 동적 질문에 대해서는 여전히 개선 여지가 상당함을 보여줍니다. 코드와 데이터는 https://github.com/OpenDFM/SciEval 에서 공개되어 있습니다.

Connected Papers

Building similarity graph...

Analyzing shared references across papers

Discussion

Authors

Liangtai Sun

Han Yang

Zihan Zhao

Actions

Institutions

Shanghai Jiao Tong University

References and Citations

Connected Papers

Building similarity graph...

Analyzing shared references across papers

SciEval: 과학 연구를 위한 다단계 대형 언어 모델 평가 벤치마크

Key Points

Abstract

Citation Network

Connected Papers

Discussion

Authors

Actions

Institutions

References and Citations

Citation Network

Connected Papers

Discussion

Cite this study

Also consider