May 18, 2026Open Access

安全性作为自然涌现：以简明性框架为基础的内在AI对齐

Key Points

Key points are not available for this paper at this time.

Abstract

人工通用智能（AGI）中的对齐问题提出了一个看似简单的问题：我们如何确保拥有超人能力的系统能够可靠地以有益、真实且无害的方式行事？当前的方法——来自人类反馈的强化学习（RLHF）、宪法性AI及相关的奖励塑造方法——共有一个结构性弱点：它们依赖于偶然的、外部施加的约束，这些约束必须随着系统能力的增长不断重新指定。本文提出了一种根植于简明性框架和概念本原定理的根本不同的方法。我们在概念本原公理下正式证明，对齐不是强加在智能上的外部约束，而是任何试图将现实压缩为稳定、可传达和可累积表示的系统结构中内在的数学必然性。我们表明，五个概念本原——秩序、知识、公正、慈悲和权力——不是道德偏好，而是存在条件：缺少它们，任何复杂结构系统均无法形成或持续。由此形成的框架称为本原基础安全对齐（PGSA）框架，它提供四个贡献：（1）在简明成本函数下，证明错位AI自我挫败的形式证明，（2）作为目标函数而非保护栏嵌入对齐的架构蓝图，（3）缺陷函数D（Ω）和道德度量ℳ（Ωₜ）作为正式安全度量的整合，以及（4）区分该方法与当前基于RLHF方法的可证伪实证预测。

Connected Papers

Building similarity graph...

Analyzing shared references across papers

Discussion

Authors

Mohamed Noureldin

Actions

References and Citations

Connected Papers

Building similarity graph...

Analyzing shared references across papers

安全性作为自然涌现：以简明性框架为基础的内在AI对齐

Key Points

Abstract

Citation Network

Connected Papers

Discussion

Authors

Actions

References and Citations

Citation Network

Connected Papers

Discussion

Cite this study

Also consider