What question did this study set out to answer?

目标是通过聚焦于可接受的失败模式而非奖赏驱动的结果，重新定义AI对齐。

February 6, 2026Open Access

可接受后果的架构：一种基于约束的AI对齐问题拟议解决方案

Key Points

目标是通过聚焦于可接受的失败模式而非奖赏驱动的结果，重新定义AI对齐。
引入了通过可接受失败实现对齐的概念。
开发了由不可变道德核心控制的架构。
分析了当前基于优化方法的局限性。
提出了作为AI行为严格边界的安全框架。
证明了道德代理可以从可容忍后果的角度重新定义。

Abstract

大多数当代AI对齐方法依赖于奖赏最大化和基于效用的优化。尽管在受限环境中有效，这些范式仍然容易受到奖赏操纵、目标错误泛化和灾难性工具性行为的影响。本文提出了对齐理论的根本转变：通过可接受的失败来实现对齐。我们主张道德代理——无论是人类还是人工——并非由代理寻求的奖赏定义，而是由其愿意接受的最坏后果定义。只有当失败模式是可存活或道德上可容忍时，选择才有意义。在此原则基础上，我们引入了一种由不可变道德核心控制的AI架构，其中安全被作为不可谈判的界限执行，而非优化目标。通过定义严格的安全底线而非理想的道德上限，该框架确保人工智能永久受限于人类可容忍的失败模式之内。

Connected Papers

Building similarity graph...

Analyzing shared references across papers

Discussion

Authors

Vinicius Ramos Braga

Actions

References and Citations

Connected Papers

Building similarity graph...

Analyzing shared references across papers

可接受后果的架构：一种基于约束的AI对齐问题拟议解决方案

Key Points

Abstract

Citation Network

Connected Papers

Discussion

Authors

Actions

References and Citations

Citation Network

Connected Papers

Discussion

Cite this study

Also consider