Key points are not available for this paper at this time.
Modelos de linguagem grandes (LLMs) demonstram fortes habilidades de raciocínio quando solicitados a gerar explicações em cadeia de pensamento (CoT) juntamente com as respostas. No entanto, pesquisas anteriores sobre a avaliação dos LLMs focaram unicamente na precisão da resposta, negligenciando a correção da CoT gerada. Neste artigo, investigamos mais profundamente as capacidades de raciocínio em CoT dos LLMs em perguntas de múltiplos saltos utilizando grafos de conhecimento (KGs). Propomos um novo paradigma discriminativo e generativo para avaliação da CoT, a fim de avaliar o conhecimento dos LLMs sobre raciocínio e a precisão da CoT gerada. Por meio de experimentos conduzidos em 5 famílias diferentes de LLMs em 2 conjuntos de dados de perguntas e respostas de múltiplos saltos, descobrimos que os LLMs possuem conhecimento suficiente para realizar raciocínio. No entanto, existe uma disparidade significativa entre a precisão da resposta e a fidelidade do raciocínio CoT gerado pelos LLMs, indicando que frequentemente chegam a respostas corretas por meio de raciocínios incorretos.
Building similarity graph...
Analyzing shared references across papers
Loading...
Minh-Vuong Nguyen
Linhao Luo
Fatemeh Shiri
Building similarity graph...
Analyzing shared references across papers
Loading...
Nguyen et al. (Sat,) estudaram esta questão.
www.synapsesocial.com/papers/68e78cdeb6db6435876fe6dd — DOI: https://doi.org/10.48550/arxiv.2402.11199
Synapse has enriched 5 closely related papers on similar clinical questions. Consider them for comparative context: