What type of study is this?

This is a Quantitative Study study.

October 17, 2025Open Access

지침 조정이 LLM의 오정보 취약성에 미치는 영향 탐구

Key Points

지침 조정된 LLM은 사용자 입력이 개입될 때 오정보에 대한 취약성이 증가합니다.
사용자 지시에 의존하는 모델은 테스트 중 오정보 수용과 관련된 역할 변화가 나타났습니다.
분석을 통해 프롬프트 구조와 경고를 포함한 다양한 요인이 오정보 취약성에 영향을 미침이 밝혀졌습니다.
연구 결과는 지침 조정의 부정적 영향을 줄이기 위한 전략의 필요성을 시사합니다.

Abstract

지침 조정은 대형 언어 모델(LLM)이 사용자 지시를 보다 정확하게 따르는 능력을 향상시켜 사용성을 개선하고 유해한 출력물을 줄입니다. 그러나 이 과정은 모델이 사용자 입력에 대한 의존도를 높여 오정보를 필터링 없이 수용하거나 환각 생성으로 이어질 수 있습니다. 기존 연구들은 주로 LLM이 그들의 매개변수 지식과 상충하는 외부 정보에 수용적임을 강조하지만, 지침 조정이 이 현상에 미치는 직접적 영향에 대한 연구는 적습니다. 본 연구에서는 지침 조정이 LLM의 오정보 취약성에 미치는 영향을 조사하였습니다. 분석 결과, 지침 조정을 거친 LLM은 사용자가 제시한 오정보를 수용할 가능성이 상당히 높아졌음을 밝혔습니다. 기본 모델과의 비교에서 지침 조정은 사용자 제공 정보에 대한 의존도를 증가시켜 오정보 취약성이 어시스턴트 역할에서 사용자 역할로 이동함을 보여줍니다. 또한, 프롬프트 구조 내 사용자 역할, 오정보 길이, 시스템 프롬프트 내 경고 존재와 같은 추가 요인들도 오정보 취약성에 미치는 영향을 탐색하였습니다. 본 연구 결과는 지침 조정의 의도치 않은 부작용을 완화하고 실제 적용에서 LLM의 신뢰성을 향상시키기 위한 체계적 접근법의 필요성을 강조합니다.

Connected Papers

Building similarity graph...

Analyzing shared references across papers

Discussion

Authors

Kyubeen Han

Jong Hyun Jang

Hongjin Kim

Actions

References and Citations

Connected Papers

Building similarity graph...

Analyzing shared references across papers

지침 조정이 LLM의 오정보 취약성에 미치는 영향 탐구

Key Points

Abstract

Citation Network

Connected Papers

Discussion

Authors

Actions

References and Citations

Citation Network

Connected Papers

Discussion

Cite this study

Also consider