Key points are not available for this paper at this time.
Grandes modelos de linguagem (LLMs) têm demonstrado uma capacidade crescente em solução de problemas e tomada de decisão, baseada principalmente nos processos de raciocínio passo a passo em cadeia de pensamento. No entanto, tem se tornado cada vez mais desafiador avaliar a capacidade de raciocínio dos LLMs. Concretamente, benchmarks existentes baseados em resultados começam a saturar e a se tornar menos suficientes para monitorar o progresso. Para isso, apresentamos um benchmark baseado em processos, o MR-BEN, que exige uma habilidade de meta-raciocínio, onde os LMs são solicitados a localizar e analisar potenciais erros em passos de raciocínio gerados automaticamente. O MR-BEN é um benchmark abrangente que compreende 5.975 questões coletadas de especialistas humanos, cobrindo várias áreas como física, química, lógica, programação e mais. Por meio de nossas métricas projetadas para avaliar meta-raciocínio neste benchmark, identificamos limitações e fraquezas interessantes dos LLMs atuais (modelos open-source e closed-source). Por exemplo, modelos open-source são aparentemente comparáveis ao GPT-4 em benchmarks baseados em resultados, mas ficam muito atrás em nosso benchmark, revelando a lacuna subjacente na capacidade de raciocínio entre eles. Nosso conjunto de dados e códigos estão disponíveis em https://randolph-zeng.github.io/Mr-Ben.github.io/.
Building similarity graph...
Analyzing shared references across papers
Loading...
Zhongshen Zeng
Yinhong Liu
Yingjia Wan
Building similarity graph...
Analyzing shared references across papers
Loading...
Zeng et al. (Qua,) estudaram esta questão.
www.synapsesocial.com/papers/68e642a2b6db6435875d452f — DOI: https://doi.org/10.48550/arxiv.2406.13975
Synapse has enriched 5 closely related papers on similar clinical questions. Consider them for comparative context: