Key points are not available for this paper at this time.
인공지능(AI) 시스템이 인간의 감독 없이 인간 사회에 미치는 부정적인 영향을 최소화하려면 인간 가치와 정렬할 수 있어야 합니다. 그러나 대부분의 현재 연구는 강화 학습과 같은 인간 피드백 기반의 기존 방법 개선과 같은 기술적 관점에서만 이 문제를 다루고 있으며, 정렬이 의미하는 바와 이를 위해 필요한 것들을 간과하고 있습니다. 여기서 우리는 강한 정렬과 약한 정렬을 구분할 것을 제안합니다. 강한 정렬은 에이전트의 의도를 이해하고 추론하며 원하는 효과를 인과적으로 생성할 수 있는 능력 등 인간과 유사하거나 다른 인지 능력을 필요로 합니다. 우리는 이것이 대형 언어 모델(LLM)과 같은 AI 시스템이 인간 가치가 훼손될 위험이 있는 상황을 인식할 수 있도록 하기 위해 필요하다고 주장합니다. 이 구분을 설명하기 위해 ChatGPT, Gemini, Copilot이 이러한 상황 중 일부를 인식하지 못하는 일련의 프롬프트를 제시합니다. 더불어 단어 임베딩을 분석하여 LLM에서 일부 인간 가치의 가장 가까운 이웃이 인간의 의미 표현과 다름을 보여줍니다. 이어서 존 설의 유명한 제안을 확장한 "단어 전이 사전이 있는 중국어 방"이라는 새로운 사고 실험을 제안합니다. 마지막으로, 여러 일반적인 상황에서 통계적으로 만족스러운 답변을 제공할 수 있으나 아직 진리 값을 보장하지 않는 약한 정렬을 향한 현재 유망한 연구 방향을 언급합니다.
Building similarity graph...
Analyzing shared references across papers
Loading...
Mehdi Khamassi
Marceau Nahon
Raja Chatila
Scientific Reports
Sorbonne Université
Institut Systèmes Intelligents et de Robotique
Building similarity graph...
Analyzing shared references across papers
Loading...
Khamassi 등(Wed,)이 이 질문을 연구했습니다.
www.synapsesocial.com/papers/68e5b740b6db64358754f728 — DOI: https://doi.org/10.1038/s41598-024-70031-3
Synapse has enriched 5 closely related papers on similar clinical questions. Consider them for comparative context: