지침 조정은 대형 언어 모델(LLM)이 사용자 지시를 보다 정확하게 따르는 능력을 향상시켜 사용성을 개선하고 유해한 출력물을 줄입니다. 그러나 이 과정은 모델이 사용자 입력에 대한 의존도를 높여 오정보를 필터링 없이 수용하거나 환각 생성으로 이어질 수 있습니다. 기존 연구들은 주로 LLM이 그들의 매개변수 지식과 상충하는 외부 정보에 수용적임을 강조하지만, 지침 조정이 이 현상에 미치는 직접적 영향에 대한 연구는 적습니다. 본 연구에서는 지침 조정이 LLM의 오정보 취약성에 미치는 영향을 조사하였습니다. 분석 결과, 지침 조정을 거친 LLM은 사용자가 제시한 오정보를 수용할 가능성이 상당히 높아졌음을 밝혔습니다. 기본 모델과의 비교에서 지침 조정은 사용자 제공 정보에 대한 의존도를 증가시켜 오정보 취약성이 어시스턴트 역할에서 사용자 역할로 이동함을 보여줍니다. 또한, 프롬프트 구조 내 사용자 역할, 오정보 길이, 시스템 프롬프트 내 경고 존재와 같은 추가 요인들도 오정보 취약성에 미치는 영향을 탐색하였습니다. 본 연구 결과는 지침 조정의 의도치 않은 부작용을 완화하고 실제 적용에서 LLM의 신뢰성을 향상시키기 위한 체계적 접근법의 필요성을 강조합니다.
Building similarity graph...
Analyzing shared references across papers
Loading...
Kyubeen Han
Jong Hyun Jang
Hongjin Kim
Building similarity graph...
Analyzing shared references across papers
Loading...
Han et al. (목,) 이 이 질문을 연구하였습니다.
www.synapsesocial.com/papers/68f19f20de32064e504ddf41 — DOI: https://doi.org/10.48550/arxiv.2507.18203
Synapse has enriched 5 closely related papers on similar clinical questions. Consider them for comparative context: