March 24, 2024Open Access

SciEval: Um Benchmark de Avaliação Multinível de Grandes Modelos de Linguagem para Pesquisa Científica

Key Points

Key points are not available for this paper at this time.

Abstract

Recentemente, houve um interesse crescente no uso de Grandes Modelos de Linguagem (LLMs) para pesquisa científica. Numerosos benchmarks foram propostos para avaliar a capacidade dos LLMs para pesquisa científica. Entretanto, os benchmarks atuais baseiam-se principalmente em perguntas objetivas pré-coletadas. Esse desenho sofre do problema de vazamento de dados e carece da avaliação da capacidade subjetiva de perguntas/respostas. Neste artigo, propomos o SciEval, um benchmark de avaliação abrangente e multidisciplinar para resolver essas questões. Baseado na taxonomia de Bloom, o SciEval cobre quatro dimensões para avaliar sistematicamente a capacidade de pesquisa científica. Em particular, projetamos um subconjunto "dinâmico" baseado em princípios científicos para evitar que a avaliação tenha potencial vazamento de dados. Perguntas objetivas e subjetivas estão incluídas no SciEval. Essas características fazem do SciEval um benchmark mais eficaz para avaliação da capacidade de pesquisa científica dos LLMs. Experimentos abrangentes nos LLMs mais avançados mostram que, embora o GPT-4 alcance desempenho de ponta comparado a outros LLMs, ainda há um espaço substancial para melhorias, especialmente para perguntas dinâmicas. Os códigos e dados estão disponíveis publicamente em https://github.com/OpenDFM/SciEval.

Connected Papers

Building similarity graph...

Analyzing shared references across papers

Discussion

Authors

Liangtai Sun

Han Yang

Zihan Zhao

Actions

Institutions

Shanghai Jiao Tong University

References and Citations

Connected Papers

Building similarity graph...

Analyzing shared references across papers

SciEval: Um Benchmark de Avaliação Multinível de Grandes Modelos de Linguagem para Pesquisa Científica

Key Points

Abstract

Citation Network

Connected Papers

Discussion

Authors

Actions

Institutions

References and Citations

Citation Network

Connected Papers

Discussion

Cite this study

Also consider