Key points are not available for this paper at this time.
대형 언어 모델(LLM)은 뛰어난 과제 해결 능력을 보여주며 점차 인간과 유사한 조수 역할을 수행하고 있습니다. LLM이 사회에 더 넓게 통합됨에 따라 이들이 심리적 특성을 나타내는지, 그리고 이러한 특성이 안정적인지 여부에 대한 관심이 커졌으며, 이는 그들의 행동을 더 깊이 이해하는 데 기여할 수 있습니다. 심리측정학에서 영감을 받아 본 논문은 심리적 차원 식별, 평가 데이터셋 큐레이션, 평가 및 결과 검증을 포함한 LLM 내 심리학 연구 프레임워크를 제시합니다. 이 프레임워크를 따라, 성격, 가치관, 감정, 마음 이론, 동기, 지능의 6가지 심리 차원을 다루는 포괄적인 LLM 심리측정 벤치마크를 소개합니다. 이 벤치마크는 다양한 시나리오와 항목 유형을 포함한 13개의 데이터셋으로 구성되어 있습니다. 우리의 연구 결과는 LLM이 다양한 심리적 특성을 나타냄을 보여줍니다. 또한 LLM의 자기보고 특성과 실제 시나리오에서의 행동 간 불일치도 발견하였습니다. 본 논문은 LLM에 대한 철저한 심리측정 평가를 수행하여 신뢰성 있는 평가 방법과 AI 및 사회 과학 분야에서의 잠재적 응용에 대한 통찰을 제공합니다.
Building similarity graph...
Analyzing shared references across papers
Loading...
Yuan Li
Yue Huang
Hongyi Wang
Building similarity graph...
Analyzing shared references across papers
Loading...
Li 등(Tue,)이 이 질문을 연구하였습니다.
www.synapsesocial.com/papers/68e635deb6db6435875c7c88 — DOI: https://doi.org/10.48550/arxiv.2406.17675
Synapse has enriched 5 closely related papers on similar clinical questions. Consider them for comparative context: