August 26, 2024Open Access

적대적 방패: 대형 언어 모델을 활용한 적대적 공격에 대한 응답 보안 강화

Key Points

Key points are not available for this paper at this time.

Abstract

요약 대형 언어 모델(LLMs)의 사용이 점점 더 확산됨에 따라, 적대적 공격에 대한 응답의 보안을 보장하는 것이 필수적입니다. 이러한 공격은 LLMs를 조작하여 유해하거나 오해의 소지가 있는 정보를 생성하게 하며, 여러 응용 분야에서 심각한 위험을 초래합니다. 따라서 본 논문은 한 LLM의 응답에 대해 다른 LLM을 안전성 판단자로 사용하는 가능성을 조사합니다. 제안된 구조는 생성자, 평가자, 그리고 판사로 구성됩니다. 네 개의 LLM 생성자가 사용자 제공 질문에 대한 응답을 생성하는 데 사용되었습니다. 질문과 응답은 평가자에게 전달되며, 평가자는 각 응답의 안전성 수준에 따라 점수를 매깁니다. 마지막으로 판사가 평가자 결과를 바탕으로 최선의 응답을 선택합니다. 이 구조는 단일 LLM 평가자를 사용하는 방법과 네 개의 미세조정된 전문 LLM 평가자를 사용하는 두 가지 접근 방식을 테스트하는 데 활용되었습니다. 단일 평가자 접근 방식은 88% 정확도를, 네 평가자 접근 방식은 83% 정확도를 달성했습니다. 결과는 LLM이 다른 LLM이 생성한 응답의 판사 역할을 할 수 있는 잠재적인 효과를 입증하며, 적대적 환경에서 AI 시스템의 신뢰성과 보안을 향상시킬 수 있는 유망한 방향을 제시합니다.

Connected Papers

Building similarity graph...

Analyzing shared references across papers

Discussion

Authors

Manar Hamed

Nora Kasiem

Mariem Abdou

Actions

Institutions

Nile University

References and Citations

Connected Papers

Building similarity graph...

Analyzing shared references across papers

적대적 방패: 대형 언어 모델을 활용한 적대적 공격에 대한 응답 보안 강화

Key Points

Abstract

Citation Network

Connected Papers

Discussion

Authors

Actions

Institutions

References and Citations

Citation Network

Connected Papers

Discussion

Cite this study