June 20, 2022Open Access

언어 모델이 제기하는 위험의 분류학

Key Points

Key points are not available for this paper at this time.

Abstract

대규모 언어 모델(LM)에 대한 책임 있는 혁신은 이러한 모델이 초래할 수 있는 위험을 예견하고 깊이 이해하는 것을 필요로 한다. 본 논문은 언어 모델과 관련된 윤리적 및 사회적 위험에 대한 포괄적인 분류학을 개발한다. 컴퓨터 과학, 언어학 및 사회 과학 분야의 전문 지식과 문헌을 토대로 21가지 위험을 식별하였다. 우리는 이러한 위험을 여섯 가지 위험 영역의 분류학에 위치시킨다: I. 차별, 혐오 발언 및 배제, II. 정보 위험, III. 허위 정보 피해, IV. 악의적 사용, V. 인간-컴퓨터 상호작용 피해, VI. 환경 및 사회경제적 피해. 이미 언어 모델에서 관찰된 위험에 대해서는 피해로 이어지는 인과 메커니즘, 위험의 증거, 위험 완화 접근법을 논의한다. 또한 아직 관찰되지 않았지만 다른 언어 기술들에 대한 평가를 바탕으로 예상되는 위험을 설명하고 분석하며 이를 동일한 분류학에 자리매김한다. 조직이 본 논문 전반에서 논의하는 완화책에 참여하는 것은 책임임을 강조한다. 마지막으로, 언어 모델이 책임감 있게 개발되도록 보장하기 위한 위험 평가 및 완화에 관한 연구의 도전과 방향성을 제시하며 마무리한다.

Connected Papers

Building similarity graph...

Analyzing shared references across papers

Discussion

Authors

Laura Weidinger

Jonathan Uesato

Maribeth Rauh

Actions

Institutions

University of Toronto

California Institute of Technology

University College Dublin

References and Citations

Connected Papers

Building similarity graph...

Analyzing shared references across papers

언어 모델이 제기하는 위험의 분류학

Key Points

Abstract

Citation Network

Connected Papers

Discussion

Authors

Actions

Institutions

References and Citations

Citation Network

Connected Papers

Discussion

Cite this study

Also consider