June 7, 2024Open Access

적대적 튜닝: 대형 언어 모델(LLM)의 탈옥 공격 방어

Key Points

Key points are not available for this paper at this time.

Abstract

안전하게 향상된 대형 언어 모델(LLM)은 여러 복잡한 작업을 제로샷 방식으로 성공적으로 수행했음에도 불구하고, 특히 알려지지 않은 탈옥 공격에는 취약합니다. LLM의 일반화된 방어 능력을 향상시키기 위해, 우리는 적대적 프롬프트와 그에 대한 안전한 응답 쌍을 포함하는 데이터셋을 최적화하여 최악의 시나리오를 탐색하는 두 단계의 적대적 튜닝 프레임워크를 제안합니다. 첫 번째 단계에서는 토큰 수준 적대적 프롬프트를 효율적이고 효과적으로 생성하기 위해 계층적 메타-범용 적대적 프롬프트 학습을 도입합니다. 두 번째 단계에서는 의미 수준 적대적 프롬프트를 점진적으로 개선하는 자동 적대적 프롬프트 학습을 제안하여 LLM의 방어력을 더욱 강화합니다. 우리는 세 가지 널리 사용되는 탈옥 데이터셋에서 종합 실험을 수행하여 다섯 가지 대표적인 공격 시나리오에서 여섯 가지 방어 기준과 본 프레임워크를 비교했습니다. 결과는 제안하는 방법의 우수성을 강조하며, 또한 본 적대적 튜닝 프레임워크가 다양한 공격 전략 및 대상 LLM에 대해 실증적 일반화 가능성을 보여주어 전이 가능한 방어 메커니즘으로서의 잠재력을 나타냅니다.

Connected Papers

Building similarity graph...

Analyzing shared references across papers

Discussion

Authors

Fan Liu

Xu Zhao

Hao Liu

Actions

References and Citations

Connected Papers

Building similarity graph...

Analyzing shared references across papers

적대적 튜닝: 대형 언어 모델(LLM)의 탈옥 공격 방어

Key Points

Abstract

Citation Network

Connected Papers

Discussion

Authors

Actions

References and Citations

Citation Network

Connected Papers

Discussion

Cite this study

Also consider