Key points are not available for this paper at this time.
최근 대형 언어 모델(LLM)을 과학 연구에 활용하려는 관심이 증가하고 있습니다. LLM의 과학 연구 능력을 평가하기 위한 수많은 벤치마크가 제안되었으나, 현재 벤치마크들은 주로 사전에 수집된 객관식 질문에 기반하고 있어 데이터 유출 문제와 주관식 질문/답변 능력 평가 부족의 한계를 갖고 있습니다. 본 논문에서는 이러한 문제를 해결하기 위해 포괄적이고 다학제적인 평가 벤치마크인 SciEval을 제안합니다. Bloom의 분류법에 기반하여 SciEval은 과학 연구 능력을 체계적으로 평가하기 위해 네 가지 차원을 포함합니다. 특히 과학 원리에 기반한 "동적" 하위 집합을 설계하여 평가 과정에서의 잠재적 데이터 유출을 방지합니다. SciEval에는 객관식과 주관식 질문이 모두 포함되어 있습니다. 이러한 특징들로 인해 SciEval은 LLM의 과학 연구 능력 평가에 보다 효과적인 벤치마크가 됩니다. 최첨단 LLM들에 대한 종합 실험 결과, GPT-4가 다른 LLM 대비 최첨단 성능을 보이지만 동적 질문에 대해서는 여전히 개선 여지가 상당함을 보여줍니다. 코드와 데이터는 https://github.com/OpenDFM/SciEval 에서 공개되어 있습니다.
Building similarity graph...
Analyzing shared references across papers
Loading...
Liangtai Sun
Han Yang
Zihan Zhao
Shanghai Jiao Tong University
Building similarity graph...
Analyzing shared references across papers
Loading...
Sun 등(Sun,)이 이 질문을 연구했습니다.
www.synapsesocial.com/papers/68e72954b6db6435876a2de2 — DOI: https://doi.org/10.1609/aaai.v38i17.29872
Synapse has enriched 5 closely related papers on similar clinical questions. Consider them for comparative context: