June 19, 2024Open Access

MR-BEN: Um Benchmark Abrangente de Meta-Raciocínio para Grandes Modelos de Linguagem

Key Points

Key points are not available for this paper at this time.

Abstract

Grandes modelos de linguagem (LLMs) têm demonstrado uma capacidade crescente em solução de problemas e tomada de decisão, baseada principalmente nos processos de raciocínio passo a passo em cadeia de pensamento. No entanto, tem se tornado cada vez mais desafiador avaliar a capacidade de raciocínio dos LLMs. Concretamente, benchmarks existentes baseados em resultados começam a saturar e a se tornar menos suficientes para monitorar o progresso. Para isso, apresentamos um benchmark baseado em processos, o MR-BEN, que exige uma habilidade de meta-raciocínio, onde os LMs são solicitados a localizar e analisar potenciais erros em passos de raciocínio gerados automaticamente. O MR-BEN é um benchmark abrangente que compreende 5.975 questões coletadas de especialistas humanos, cobrindo várias áreas como física, química, lógica, programação e mais. Por meio de nossas métricas projetadas para avaliar meta-raciocínio neste benchmark, identificamos limitações e fraquezas interessantes dos LLMs atuais (modelos open-source e closed-source). Por exemplo, modelos open-source são aparentemente comparáveis ao GPT-4 em benchmarks baseados em resultados, mas ficam muito atrás em nosso benchmark, revelando a lacuna subjacente na capacidade de raciocínio entre eles. Nosso conjunto de dados e códigos estão disponíveis em https://randolph-zeng.github.io/Mr-Ben.github.io/.

Connected Papers

Building similarity graph...

Analyzing shared references across papers

Discussion

Authors

Zhongshen Zeng

Yinhong Liu

Yingjia Wan

Actions

References and Citations

Connected Papers

Building similarity graph...

Analyzing shared references across papers

MR-BEN: Um Benchmark Abrangente de Meta-Raciocínio para Grandes Modelos de Linguagem

Key Points

Abstract

Citation Network

Connected Papers

Discussion

Authors

Actions

References and Citations

Citation Network

Connected Papers

Discussion

Cite this study

Also consider