Key points are not available for this paper at this time.
대형 언어 모델(LLM)은 다양한 응용 분야에서 큰 성공을 거두었지만, 내장된 안전장치를 우회하여 위험하거나 불법적인 내용을 제공하도록 유도하는 특정 프롬프트에 취약한 탈옥(jailbreak) 현상이 발생합니다. LLM이 유해 정보를 생산하지 않도록 보호하기 위해 다양한 방어 전략이 제안되었으며, 대부분은 콘텐츠 필터링이나 모델의 적대적 학습에 초점을 맞추고 있습니다. 본 논문에서는 방어 제어 메커니즘을 학습시키는 프롬프트 적대적 튜닝(Prompt Adversarial Tuning, PAT)이라는 접근법을 제안하며, 이를 사용자 프롬프트 앞에 접두사로 삽입하여 방어 전략을 구현합니다. 최적화 목표 달성을 위해 공격과 방어 제어를 번갈아 업데이트하는 적대적 학습과 유사한 학습 프로세스를 설계했습니다. 우리가 아는 한, 프롬프트 튜닝 관점에서 방어를 구현한 최초의 연구입니다. 적용 시 LLM의 운영 효율에 거의 영향을 미치지 않습니다. 실험 결과, 본 방법은 블랙박스 및 화이트박스 환경 모두에서 효과적이며, 고급 공격의 성공률을 거의 0으로 낮추면서도 간단한 정상 질문에 대한 정상 답변률을 80% 수준으로 유지합니다. 본 연구는 향후 LLM 보안 연구에 새로운 관점을 제시할 수 있을 것입니다.
Building similarity graph...
Analyzing shared references across papers
Loading...
Yichuan Mo
Yuji Wang
Zeming Wei
Building similarity graph...
Analyzing shared references across papers
Loading...
Mo 등(Fri,)이 이 질문을 연구했습니다.
www.synapsesocial.com/papers/68e7b285b6db64358770d401 — DOI: https://doi.org/10.48550/arxiv.2402.06255
Synapse has enriched 5 closely related papers on similar clinical questions. Consider them for comparative context: