Key points are not available for this paper at this time.
Grandes modelos de linguagem (LLMs) demonstram grande potencial para problemas com estruturas gráficas implícitas, enquanto trabalhos recentes buscam aprimorar as capacidades de raciocínio gráfico dos LLMs através de ajuste de instrução especializado. Os 'graph LLMs' resultantes são avaliados apenas em configurações de distribuição interna, de modo que permanece pouco explorado se os LLMs estão aprendendo habilidades de raciocínio gráfico generalizáveis ou meramente memorizando padrões nos dados sintéticos de treinamento. Para isso, propomos o benchmark NLGift, uma suíte de avaliação da generalização do raciocínio gráfico dos LLMs: se os LLMs poderiam ir além de padrões semânticos, numéricos, estruturais e de raciocínio nos dados sintéticos de treinamento e melhorar a utilidade em tarefas do mundo real baseadas em grafos. Experimentos extensivos com dois LLMs em quatro tarefas de raciocínio gráfico mostram que, embora a generalização em padrões simples (semânticos, numéricos) seja razoavelmente satisfatória, os LLMs enfrentam dificuldades para generalizar em padrões de raciocínio e do mundo real, lançando dúvidas sobre o benefício do ajuste sintético de grafos para tarefas do mundo real com estruturas de rede subjacentes. Exploramos três estratégias para melhorar a generalização do raciocínio gráfico dos LLMs e descobrimos que, embora o alinhamento pós-treinamento seja mais promissor para tarefas do mundo real, capacitar o raciocínio gráfico dos LLMs para ir além da memorização de padrões permanece uma questão em aberto de pesquisa.
Building similarity graph...
Analyzing shared references across papers
Loading...
Yizhuo Zhang
Heng Wang
Shangbin Feng
Building similarity graph...
Analyzing shared references across papers
Loading...
Zhang et al. (Sat,) estudaram esta questão.
www.synapsesocial.com/papers/68e63c0bb6db6435875cda3e — DOI: https://doi.org/10.48550/arxiv.2406.15992
Synapse has enriched 5 closely related papers on similar clinical questions. Consider them for comparative context: