Key points are not available for this paper at this time.
프롬프팅과 다지선다형 질문(MCQ)은 조작과 평가가 용이하여 대형 언어 모델(LLM)의 능력을 평가하는 선호되는 접근법이 되었다. 이러한 실험적 평가들은 LLM이 인과 추론을 수행하거나 불확실성을 이해하는 것처럼 보이는 능력을 가지고 있음을 시사했다. 본 논문에서는 이러한 능력이 맞춤형 프롬프팅과 MCQ를 벗어나 텍스트 완성이라는 LLM의 기본 기능으로 직접 측정 가능한지 조사한다. 이를 위해 여러 가능한 결과가 있는 시나리오를 정의하고 프롬프팅을 통해 LLM이 제시한 예측(진술된 답변)과 다음 토큰 예측 중 계산하는 결과에 대한 확률분포(드러난 신념)를 비교한다. 연구 결과는 LLM의 드러난 신념이 진술된 답변과 크게 다르며, 이 신념들이 여러 시나리오와 결과에서 다양한 편향과 오해를 초래할 수 있음을 시사한다. 텍스트 완성이 LLM의 핵심인 만큼, 이 결과는 일반적인 평가 방법이 부분적인 그림만 제공하며, 이들의 능력 범위와 본질을 평가하기 위한 더 많은 연구가 필요함을 시사한다.
Building similarity graph...
Analyzing shared references across papers
Loading...
Manuel Mondal
Ljiljana Dolamic
Gérôme Bovet
Building similarity graph...
Analyzing shared references across papers
Loading...
Mondal 등(Fri,)이 이 질문을 연구했다.
www.synapsesocial.com/papers/68e63e20b6db6435875cfa06 — DOI: https://doi.org/10.48550/arxiv.2406.14986
Synapse has enriched 5 closely related papers on similar clinical questions. Consider them for comparative context: