June 9, 2024Open Access

大型语言模型是否表现出类人推理能力？评估大型语言模型在开放式回答中的心智理论

Key Points

Key points are not available for this paper at this time.

Abstract

心智理论（ToM）推理涉及认识到他人拥有自己的意图、情感和想法，这对于引导自身思考过程至关重要。尽管大型语言模型（LLMs）在摘要、问答和翻译等任务中表现出色，但它们在心智理论推理方面，尤其是在开放式问题上，仍面临挑战。尽管已有进展，但LLMs对心智理论推理的真正理解程度以及其与人类心智理论推理的契合度，在开放式情境中仍未得到充分探索。针对这一空白，我们评估了LLMs感知并整合人类意图和情感以进行心智理论推理的能力，特别是在开放式问题中。本研究利用了Reddit的ChangeMyView平台帖子，该平台要求细腻的社会推理以撰写有说服力的回应。通过比较人类与LLMs生成的回应之间的语义相似度和词汇重叠度，我们的分析显示，在开放式问题的心智理论推理能力上存在明显差异，甚至最先进的模型也表现出显著的局限性。为提升LLMs能力，我们实施了一种结合人类意图和情感的提示调优方法，进而提升了心智理论推理表现。然而，尽管有所改进，该提升仍未完全达到类人推理水平。本研究强调了LLMs在社会推理方面的不足，并展示了整合人类意图和情感如何增强其效果。

Connected Papers

Building similarity graph...

Analyzing shared references across papers

Discussion

Authors

Maryam Amirizaniani

Elias Martin

Maryna Sivachenko

Actions

References and Citations

Connected Papers

Building similarity graph...

Analyzing shared references across papers

大型语言模型是否表现出类人推理能力？评估大型语言模型在开放式回答中的心智理论

Key Points

Abstract

Citation Network

Connected Papers

Discussion

Authors

Actions

References and Citations

Citation Network

Connected Papers

Discussion

Cite this study