August 21, 2024Open Access

대형 언어 모델과 인간 가치의 강한 정렬과 약한 정렬

Key Points

Key points are not available for this paper at this time.

Abstract

인공지능(AI) 시스템이 인간의 감독 없이 인간 사회에 미치는 부정적인 영향을 최소화하려면 인간 가치와 정렬할 수 있어야 합니다. 그러나 대부분의 현재 연구는 강화 학습과 같은 인간 피드백 기반의 기존 방법 개선과 같은 기술적 관점에서만 이 문제를 다루고 있으며, 정렬이 의미하는 바와 이를 위해 필요한 것들을 간과하고 있습니다. 여기서 우리는 강한 정렬과 약한 정렬을 구분할 것을 제안합니다. 강한 정렬은 에이전트의 의도를 이해하고 추론하며 원하는 효과를 인과적으로 생성할 수 있는 능력 등 인간과 유사하거나 다른 인지 능력을 필요로 합니다. 우리는 이것이 대형 언어 모델(LLM)과 같은 AI 시스템이 인간 가치가 훼손될 위험이 있는 상황을 인식할 수 있도록 하기 위해 필요하다고 주장합니다. 이 구분을 설명하기 위해 ChatGPT, Gemini, Copilot이 이러한 상황 중 일부를 인식하지 못하는 일련의 프롬프트를 제시합니다. 더불어 단어 임베딩을 분석하여 LLM에서 일부 인간 가치의 가장 가까운 이웃이 인간의 의미 표현과 다름을 보여줍니다. 이어서 존 설의 유명한 제안을 확장한 "단어 전이 사전이 있는 중국어 방"이라는 새로운 사고 실험을 제안합니다. 마지막으로, 여러 일반적인 상황에서 통계적으로 만족스러운 답변을 제공할 수 있으나 아직 진리 값을 보장하지 않는 약한 정렬을 향한 현재 유망한 연구 방향을 언급합니다.

Connected Papers

Building similarity graph...

Analyzing shared references across papers

Discussion

Authors

Mehdi Khamassi

Marceau Nahon

Raja Chatila

Journals

Scientific Reports

Actions

Institutions

Sorbonne Université

Institut Systèmes Intelligents et de Robotique

References and Citations

Connected Papers

Building similarity graph...

Analyzing shared references across papers

대형 언어 모델과 인간 가치의 강한 정렬과 약한 정렬

Key Points

Abstract

Citation Network

Connected Papers

Discussion

Authors

Journals

Actions

Institutions

References and Citations

Citation Network

Connected Papers

Discussion

Cite this study

Also consider