Key points are not available for this paper at this time.
Grandes modelos de linguagem (LLMs) demonstraram recentemente uma habilidade impressionante para realizar tarefas de raciocínio aritmético e simbólico, quando fornecidos com alguns exemplos no momento do teste ("prompting few-shot"). Grande parte desse sucesso pode ser atribuído a métodos de prompting como "chain-of-thought", que utilizam os LLMs tanto para compreender a descrição do problema decompondo-o em etapas, quanto para resolver cada etapa do problema. Embora os LLMs pareçam ser competentes nesse tipo de decomposição passo a passo, eles frequentemente cometem erros lógicos e aritméticos na parte da solução, mesmo quando o problema é corretamente decomposto. Neste artigo, apresentamos Program-Aided Language models (PAL): uma abordagem inovadora que usa o LLM para ler problemas em linguagem natural e gerar programas como etapas intermediárias de raciocínio, mas delega a etapa de solução a um tempo de execução, como um interpretador Python. Com o PAL, decompor o problema em linguagem natural em etapas executáveis permanece a única tarefa de aprendizado para o LLM, enquanto a resolução é delegada ao interpretador. Demonstramos essa sinergia entre um LLM neural e um interpretador simbólico em 13 tarefas de raciocínio matemático, simbólico e algorítmico do BIG-Bench Hard e outros benchmarks. Em todas essas tarefas de raciocínio em linguagem natural, gerar código usando um LLM e raciocinar utilizando um interpretador Python conduz a resultados mais precisos do que modelos muito maiores. Por exemplo, PAL com Codex alcança precisão few-shot de estado-da-arte no benchmark GSM8K de problemas matemáticos em linguagem natural, superando o PaLM-540B que usa chain-of-thought por 15% absoluto no top-1. Nosso código e dados estão publicamente disponíveis em http://reasonwithpal.com/.
Building similarity graph...
Analyzing shared references across papers
Loading...
Luyu Gao
Aman Madaan
Shuyan Zhou
Building similarity graph...
Analyzing shared references across papers
Loading...
Gao et al. (sex,) estudaram esta questão.
www.synapsesocial.com/papers/6a08cd155686deba6901f236 — DOI: https://doi.org/10.48550/arxiv.2211.10435