Key points are not available for this paper at this time.
우리를 인간으로 정의하는 핵심에는 마음 이론 개념이 있습니다: 다른 사람의 정신 상태를 추적하는 능력입니다. ChatGPT와 같은 대형 언어 모델(LLM)의 최근 발전은 이들이 마음 이론 과제에서 인간 행동과 구별이 불가능한 행동을 보일 가능성에 대해 치열한 논쟁을 불러일으켰습니다. 본 연구에서는 거짓 신념 이해부터 간접 요청 해석 및 아이러니와 실수를 인지하는 것까지 다양한 마음 이론 능력을 측정하는 포괄적인 측정 도구를 통해 인간과 LLM의 수행을 비교했습니다. 우리는 두 가지 LLM 계열(GPT와 LLaMA2)을 반복적으로 이 측정 도구에 대해 테스트하고 1,907명의 인간 참가자 샘플과 그 수행을 비교했습니다. 마음 이론 테스트 전반에 걸쳐, GPT-4 모델은 간접 요청, 거짓 신념 및 오도 인식 분야에서 인간 수준 혹은 그 이상으로 수행했으나 실수 감지는 어려워했습니다. 그러나 실수 영역에서는 LLaMA2가 유일하게 인간을 능가했습니다. 믿음 확률에 대한 후속 조작에서는 LLaMA2의 우위가 착시임이 밝혀졌으며, 이는 무지를 귀속하는 편향을 반영할 가능성이 있습니다. 반면, GPT의 낮은 수행은 추론 실패가 아닌 결론 도출에 대한 지나친 보수적 접근에서 기인했습니다. 이 결과는 LLM이 인간의 마음 추론 결과와 일치하는 행동을 보임을 입증하며, 인간과 인공 지능 간 비표면적 비교를 보장하기 위한 체계적 테스트의 중요성을 강조합니다.
Building similarity graph...
Analyzing shared references across papers
Loading...
James W. A. Strachan
Dalila Albergo
Giulia Borghini
Nature Human Behaviour
Princeton University
Universität Hamburg
University Medical Center Hamburg-Eppendorf
Building similarity graph...
Analyzing shared references across papers
Loading...
Strachan 등 (Mon,) 이 이 문제를 연구했습니다.
www.synapsesocial.com/papers/68e6936db6db64358761a3b3 — DOI: https://doi.org/10.1038/s41562-024-01882-z
Synapse has enriched 5 closely related papers on similar clinical questions. Consider them for comparative context: