March 19, 2024Open Access

표상적 피해에서 서비스 품질 피해로: 라마 2 안전 장치에 관한 사례 연구

Key Points

Key points are not available for this paper at this time.

Abstract

대규모 언어 모델(LLM)의 최근 진전은 다양한 영역에서의 광범위한 채택으로 이어졌습니다. 그러나 이러한 발전은 추가적인 안전 위험을 초래하고 이미 소외된 인구에 대한 해로운 영향에 대한 우려를 불러일으켰습니다. 감독된 안전 지향 미세 조정과 인간 피드백으로부터의 안전 강화 학습 활용과 같은 안전 장치 개발을 위한 노력에도 불구하고, 이러한 모델들의 안전성과 내재된 편향에 관한 여러 우려가 남아 있습니다. 더욱이, 이전 연구들은 안전에 최적화된 모델들이 조심스러운 조치로 특정 요청에 응답을 자제하는 경향과 같은 과장된 안전 행동을 보이는 경우가 많다는 사실을 보여주었습니다. 따라서 이들 모델의 도움말 유용성과 안전성 간의 명확한 상충관계가 문헌에서 문서화되어 있습니다. 본 논문에서는 이미 완화된 편향에 대해 모델을 평가하여 안전 조치의 효과를 더욱 조사합니다. 라마 2의 사례를 사용하여, LLM의 안전 응답이 여전히 해로운 가정을 내포할 수 있음을 보여줍니다. 이를 위해 비독성 프롬프트 세트를 생성하여 라마 모델을 평가하는 데 사용했습니다. 사용자의 LLM 응답에 대한 새로운 분류법을 통해, 특정 인구 집단에서 안전/도움 제공 간의 상호절충이 더 뚜렷하게 나타나 소외된 인구에 대한 서비스 품질 피해를 초래할 수 있음을 관찰했습니다.

Connected Papers

Building similarity graph...

Analyzing shared references across papers

Discussion

Authors

Khaoula Chehbouni

Megha Roshan

Emmanuel Ma

Actions

References and Citations

Connected Papers

Building similarity graph...

Analyzing shared references across papers

표상적 피해에서 서비스 품질 피해로: 라마 2 안전 장치에 관한 사례 연구

Key Points

Abstract

Citation Network

Connected Papers

Discussion

Authors

Actions

References and Citations

Citation Network

Connected Papers

Discussion

Cite this study

Also consider