ChatGPT와 같은 대형 언어 모델(LLM)의 등장은 자연어 처리를 발전시켰지만, 인지 편향에 대한 우려도 커지고 있습니다. 본 논문에서는 첫 정보에 과도하게 의존하여 영향받은 판단을 내리는 인지 편향인 앵커링 효과를 조사합니다. LLM이 앵커링의 영향을 받는지, 그 기저 메커니즘과 잠재적 완화 전략을 탐구합니다. 앵커링 효과에 대한 대규모 연구를 촉진하기 위해 새로운 데이터셋 SynAnchors를 도입합니다. 세밀하게 다듬어진 평가 지표를 결합하여 현 널리 사용되는 LLM을 벤치마킹했습니다. 연구 결과, LLM에서 앵커링 편향이 흔히 존재하며 얕은 층에서 작용하고 기존 전략으로는 제거되지 않으나, 추론은 일부 완화를 제공할 수 있음을 보여줍니다. 인지심리학을 통한 이러한 재맥락화는 LLM 평가가 표준 벤치마크나 과도하게 최적화된 견고성 테스트에 집중할 것이 아니라, 인지 편향을 인지하는 신뢰성 평가에 집중할 것을 촉구합니다.
Building similarity graph...
Analyzing shared references across papers
Loading...
Yiming Huang
Biquan Bie
Z Na
Building similarity graph...
Analyzing shared references across papers
Loading...
Huang 등은 이 질문을 연구하였습니다.
www.synapsesocial.com/papers/68f5c338e2d8b12842645adc — DOI: https://doi.org/10.48550/arxiv.2505.15392
Synapse has enriched 5 closely related papers on similar clinical questions. Consider them for comparative context: