Key points are not available for this paper at this time.
Recentemente, houve um interesse crescente no uso de Grandes Modelos de Linguagem (LLMs) para pesquisa científica. Numerosos benchmarks foram propostos para avaliar a capacidade dos LLMs para pesquisa científica. Entretanto, os benchmarks atuais baseiam-se principalmente em perguntas objetivas pré-coletadas. Esse desenho sofre do problema de vazamento de dados e carece da avaliação da capacidade subjetiva de perguntas/respostas. Neste artigo, propomos o SciEval, um benchmark de avaliação abrangente e multidisciplinar para resolver essas questões. Baseado na taxonomia de Bloom, o SciEval cobre quatro dimensões para avaliar sistematicamente a capacidade de pesquisa científica. Em particular, projetamos um subconjunto "dinâmico" baseado em princípios científicos para evitar que a avaliação tenha potencial vazamento de dados. Perguntas objetivas e subjetivas estão incluídas no SciEval. Essas características fazem do SciEval um benchmark mais eficaz para avaliação da capacidade de pesquisa científica dos LLMs. Experimentos abrangentes nos LLMs mais avançados mostram que, embora o GPT-4 alcance desempenho de ponta comparado a outros LLMs, ainda há um espaço substancial para melhorias, especialmente para perguntas dinâmicas. Os códigos e dados estão disponíveis publicamente em https://github.com/OpenDFM/SciEval.
Building similarity graph...
Analyzing shared references across papers
Loading...
Liangtai Sun
Han Yang
Zihan Zhao
Shanghai Jiao Tong University
Building similarity graph...
Analyzing shared references across papers
Loading...
Sun et al. (Sun,) estudaram esta questão.
www.synapsesocial.com/papers/68e72954b6db6435876a2de2 — DOI: https://doi.org/10.1609/aaai.v38i17.29872
Synapse has enriched 5 closely related papers on similar clinical questions. Consider them for comparative context: