Key points are not available for this paper at this time.
Jailbreaking은 상용 대형 언어 모델(LLM)에 적용된 안전성 정렬을 우회하는 신흥 적대적 공격입니다. 최근 Greedy Coordinate Gradient(GCG) 공격, 'Do-Anything-Now'(DAN)과 같은 jailbreak 템플릿 기반 공격, 다국어 jailbreak 등 더욱 효과적인 jailbreak 공격을 제안하는 상당한 연구가 존재합니다. 반면, 방어 측면은 비교적 덜 탐구되었습니다. 본 논문은 SELFDEFEND라는 경량이면서도 실용적인 방어책을 제안하며, 이는 모든 기존 jailbreak 공격에 대해 jailbreak 프롬프트에는 최소한의 지연만, 일반 사용자 프롬프트에는 무시할 만한 지연으로 방어할 수 있습니다. 우리의 핵심 통찰은 어떤 jailbreak 전략을 사용하든 결국 LLM에 보내는 프롬프트에 '폭탄 만드는 법'과 같은 유해한 프롬프트가 포함되어야 한다는 점이며, 기존 LLM이 이러한 안전 정책을 위반하는 유해한 프롬프트를 효과적으로 인식할 수 있음을 발견했습니다. 이 통찰에 기반해, 사용자 프롬프트에 유해한 프롬프트가 있는지 동시 검사하는 섀도우 스택을 설계하고, 'No' 토큰 또는 유해한 프롬프트가 출력될 경우 정상 스택에 체크포인트를 발생시킵니다. 후자는 적대적 프롬프트에 대해 설명 가능한 LLM 응답을 생성할 수도 있습니다. GPT-3.5/4에서 수작업 분석을 통해 SELFDEFEND 아이디어가 다양한 jailbreak 시나리오에서도 작동함을 입증합니다. 또한 SELFDEFEND를 더 향상시킬 세 가지 미래 방향을 제시합니다.
Building similarity graph...
Analyzing shared references across papers
Loading...
Daoyuan Wu
Shuai Wang
Yang Liu
Building similarity graph...
Analyzing shared references across papers
Loading...
Wu et al. (Sat,) 이 질문을 연구했습니다.
www.synapsesocial.com/papers/68e77c7cb6db6435876f09a7 — DOI: https://doi.org/10.48550/arxiv.2402.15727
Synapse has enriched 5 closely related papers on similar clinical questions. Consider them for comparative context: