Avanços recentes em grandes modelos de linguagem para raciocínio (LRLMs) dependem da escalabilidade em tempo de teste, que estende a geração de longas cadeias de raciocínio (CoT) para resolver tarefas complexas. No entanto, o pensamento excessivo em longas CoTs não só diminui a eficiência da resolução de problemas, como também pode comprometer a precisão devido a passos de raciocínio extremamente detalhados ou redundantes. Propomos um método simples, porém eficaz, que permite que os LLMs auto-trunquem as sequências CoT por saída antecipada durante a geração. Em vez de depender de heurísticas fixas, o método proposto monitora o comportamento do modelo em pontos potenciais de transição de raciocínio (por exemplo, tokens "Wait") e termina dinamicamente a geração da próxima cadeia de raciocínio quando o modelo demonstra alta confiança em uma resposta experimental. Nosso método não requer treinamento adicional e pode ser integrado perfeitamente em LLMs de raciocínio do tipo o1 já existentes. Experimentos realizados em 10 benchmarks de raciocínio (por exemplo, GSM8K, MATH-500, AMC, GPQA, AIME e LiveCodeBench) mostram que o método proposto é consistentemente eficaz em 11 LLMs de raciocínio de ponta de diversas séries e tamanhos, reduzindo o comprimento das sequências CoT em uma média de 19,1% a 80,1%, enquanto melhora a precisão de 0,3% a 5,0%.
Building similarity graph...
Analyzing shared references across papers
Loading...
Chenxu Yang
Qingyi Si
Yongjie Duan
Building similarity graph...
Analyzing shared references across papers
Loading...
Yang et al. (Terç.,) estudaram esta questão.
www.synapsesocial.com/papers/68dd91cbfe798ba2fc4986e0 — DOI: https://doi.org/10.48550/arxiv.2504.15895
Synapse has enriched 5 closely related papers on similar clinical questions. Consider them for comparative context: