Key points are not available for this paper at this time.
우리는 언어 모델의 잠재적으로 해로운 출력을 동시에 발견, 측정 및 줄이려는 초기 레드 팀 구성 노력을 설명합니다. 세 가지 주요 기여가 있습니다. 첫째, 3가지 모델 크기(2.7B, 13B, 52B 파라미터)와 4가지 모델 유형에 대한 레드 팀 구성의 확장 행동을 조사합니다: 일반 언어 모델(LM); 도움이 되고 정직하며 무해하도록 유도된 LM; 거절 샘플링이 적용된 LM; 인간 피드백 기반 강화 학습(RLHF)으로 훈련되어 도움이 되고 무해한 모델. RLHF 모델은 확장할수록 레드 팀 구성이 점점 어려워지며, 다른 모델 유형은 확장에 따른 변화가 거의 없음을 발견했습니다. 둘째, 38,961개 레드 팀 공격 데이터셋을 공개하여 다른 이들이 분석하고 학습할 수 있게 합니다. 데이터 분석 결과, 공격적인 언어부터 더 미묘하지만 비폭력적 비윤리적 출력까지 다양한 해로운 결과를 확인했습니다. 셋째, 우리의 지침, 절차, 통계 방법론, 레드 팀 구성에 대한 불확실성을 상세히 기술했습니다. 이 투명성이 커뮤니티가 함께 작업하여 언어 모델 레드 팀 구성에 대한 공유된 규범, 관행, 기술 기준을 개발하는 데 기여하기를 바랍니다.
Building similarity graph...
Analyzing shared references across papers
Loading...
Deep Ganguli
Liane Lovitt
Jackson Kernion
Building similarity graph...
Analyzing shared references across papers
Loading...
Ganguli et al. (Tue,) 이 질문을 연구했습니다.
www.synapsesocial.com/papers/69dd429afb7610310c1015f8 — DOI: https://doi.org/10.48550/arxiv.2209.07858