February 26, 2024Open Access

ShieldLM: 정렬되고 맞춤형이며 설명 가능한 안전 감지기로서 LLM 강화

Key Points

Key points are not available for this paper at this time.

Abstract

대형 언어 모델(LLM)의 안전성은 최근 몇 년간 점차 주목받고 있으나, LLM 응답 내 안전 문제를 정렬되고 맞춤형이며 설명 가능한 방식으로 감지할 수 있는 종합적인 접근법은 여전히 부족하다. 본 논문에서는 일반적인 인간 안전 기준에 부합하며 맞춤형 감지 규칙을 지원하고 의사결정에 대한 설명을 제공하는 LLM 기반 안전 감지기 ShieldLM을 제안한다. ShieldLM을 훈련하기 위해, 다양한 안전 기준에 따른 응답의 안전성을 주석한 14,387개의 질의-응답 쌍으로 이루어진 대규모 이중언어 데이터셋을 구축하였다. 광범위한 실험을 통해 ShieldLM은 네 개의 테스트 세트에서 강력한 기준선을 능가하며 뛰어난 맞춤형 및 설명 가능성을 보여줌을 입증하였다. 또한 표준 감지 데이터셋에서의 우수한 성능뿐 아니라, 고급 LLM을 위한 안전 평가자로서 실제 상황에서도 효과적임이 증명되었다. 우리는 https://github.com/thu-coai/ShieldLM 에서 ShieldLM을 공개하여 다양한 안전 기준 하에서 정확하고 설명 가능한 안전 감지를 지원함으로써 LLM 안전성 향상 노력에 기여하고자 한다.

Connected Papers

Building similarity graph...

Analyzing shared references across papers

Discussion

Authors

Zhexin Zhang

Yida Lu

Jingyuan Ma

Actions

References and Citations

Connected Papers

Building similarity graph...

Analyzing shared references across papers

ShieldLM: 정렬되고 맞춤형이며 설명 가능한 안전 감지기로서 LLM 강화

Key Points

Abstract

Citation Network

Connected Papers

Discussion

Authors

Actions

References and Citations

Citation Network

Connected Papers

Discussion

Cite this study

Also consider