August 23, 2022Open Access

해를 줄이기 위한 언어 모델 레드 팀 구성: 방법, 확장 행동 및 배운 교훈

Key Points

Key points are not available for this paper at this time.

Abstract

우리는 언어 모델의 잠재적으로 해로운 출력을 동시에 발견, 측정 및 줄이려는 초기 레드 팀 구성 노력을 설명합니다. 세 가지 주요 기여가 있습니다. 첫째, 3가지 모델 크기(2.7B, 13B, 52B 파라미터)와 4가지 모델 유형에 대한 레드 팀 구성의 확장 행동을 조사합니다: 일반 언어 모델(LM); 도움이 되고 정직하며 무해하도록 유도된 LM; 거절 샘플링이 적용된 LM; 인간 피드백 기반 강화 학습(RLHF)으로 훈련되어 도움이 되고 무해한 모델. RLHF 모델은 확장할수록 레드 팀 구성이 점점 어려워지며, 다른 모델 유형은 확장에 따른 변화가 거의 없음을 발견했습니다. 둘째, 38,961개 레드 팀 공격 데이터셋을 공개하여 다른 이들이 분석하고 학습할 수 있게 합니다. 데이터 분석 결과, 공격적인 언어부터 더 미묘하지만 비폭력적 비윤리적 출력까지 다양한 해로운 결과를 확인했습니다. 셋째, 우리의 지침, 절차, 통계 방법론, 레드 팀 구성에 대한 불확실성을 상세히 기술했습니다. 이 투명성이 커뮤니티가 함께 작업하여 언어 모델 레드 팀 구성에 대한 공유된 규범, 관행, 기술 기준을 개발하는 데 기여하기를 바랍니다.

Connected Papers

Building similarity graph...

Analyzing shared references across papers

Discussion

Authors

Deep Ganguli

Liane Lovitt

Jackson Kernion

Actions

References and Citations

Connected Papers

Building similarity graph...

Analyzing shared references across papers

해를 줄이기 위한 언어 모델 레드 팀 구성: 방법, 확장 행동 및 배운 교훈

Key Points

Abstract

Citation Network

Connected Papers

Discussion

Authors

Actions

References and Citations

Citation Network

Connected Papers

Discussion

Cite this study