Key points are not available for this paper at this time.
Les grands modèles de langage (LLM) démontrent un grand potentiel pour les problèmes avec des structures graphiques implicites, tandis que des travaux récents cherchent à améliorer les capacités de raisonnement graphique des LLM via un ajustement d'instruction spécialisé. Les "graph LLM" ainsi obtenus sont évalués uniquement dans des contextes intra-distribution, laissant peu exploré si les LLM apprennent des compétences généralisables de raisonnement graphique ou simplement mémorisent des motifs dans les données synthétiques d'entraînement. À cette fin, nous proposons le benchmark NLGift, une suite d'évaluation de la généralisation du raisonnement graphique des LLM : si les LLM peuvent aller au-delà des motifs sémantiques, numériques, structurels et de raisonnement présents dans les données d'entraînement synthétiques et améliorer leur utilité sur des tâches réelles basées sur des graphes. Des expériences approfondies avec deux LLM sur quatre tâches de raisonnement graphique démontrent que, bien que la généralisation sur des motifs simples (sémantiques, numériques) soit assez satisfaisante, les LLM ont du mal à généraliser au-delà des motifs de raisonnement et des motifs du monde réel, ce qui remet en question l'intérêt de l'ajustement sur des graphes synthétiques pour des tâches réelles avec des structures de réseau sous-jacentes. Nous explorons trois stratégies pour améliorer la généralisation du raisonnement graphique des LLM, et nous constatons que, bien que l'alignement post-entraînement soit le plus prometteur pour les tâches réelles, habiliter les LLM à dépasser la simple mémorisation de motifs reste une question de recherche ouverte.
Building similarity graph...
Analyzing shared references across papers
Loading...
Yizhuo Zhang
Heng Wang
Shangbin Feng
Building similarity graph...
Analyzing shared references across papers
Loading...
Zhang et al. (Samedi) ont étudié cette question.
www.synapsesocial.com/papers/68e63c0bb6db6435875cda3e — DOI: https://doi.org/10.48550/arxiv.2406.15992
Synapse has enriched 5 closely related papers on similar clinical questions. Consider them for comparative context: