Key points are not available for this paper at this time.
대형 언어 모델(LLM)은 인간 언어를 처리하고 생성하는 데 뛰어나며, 명령을 해석하고 따르는 능력에 의해 구동됩니다. 그러나 이러한 능력은 프롬프트 인젝션 공격을 통해 악용될 수 있습니다. 이 공격은 LLM 통합 애플리케이션을 조작해 공격자가 주입한 내용에 부합하는 응답을 생성하게 하여 사용자의 실제 요청과는 다르게 만듭니다. 이러한 공격이 제기하는 상당한 위험성은 위협에 대한 철저한 이해가 필요함을 강조합니다. 그러나 이 분야의 연구는 공격 목표의 통일된 정의 부족과 수작업으로 제작된 프롬프트에 의존하는 점 때문에 프롬프트 인젝션 강인성의 포괄적 평가가 어렵다는 도전에 직면해 있습니다. 우리는 프롬프트 인젝션 공격의 목표를 이해하기 위한 통합 프레임워크를 도입하고, 방어조치에 대응할 수 있는 매우 효과적이고 보편적인 프롬프트 인젝션 데이터를 자동으로 생성하는 그래디언트 기반 방법을 제시합니다. 단 5개의 학습 샘플(시험 데이터 대비 0.3%)만으로도 본 공격은 기준선 방식을 능가하는 성능을 달성할 수 있습니다. 우리의 발견은 특히 방어 메커니즘에 대해 과대평가를 피할 수 있는 그래디언트 기반 테스트의 중요성을 강조합니다.
Building similarity graph...
Analyzing shared references across papers
Loading...
Xiaogeng Liu
Zhiyuan Yu
Yizhe Zhang
Building similarity graph...
Analyzing shared references across papers
Loading...
Liu 등(목요일)은 이 문제에 대해 연구했습니다.
www.synapsesocial.com/papers/68e75441b6db6435876cc916 — DOI: https://doi.org/10.48550/arxiv.2403.04957