大多数当代AI对齐方法依赖于奖赏最大化和基于效用的优化。尽管在受限环境中有效,这些范式仍然容易受到奖赏操纵、目标错误泛化和灾难性工具性行为的影响。本文提出了对齐理论的根本转变:通过可接受的失败来实现对齐。我们主张道德代理——无论是人类还是人工——并非由代理寻求的奖赏定义,而是由其愿意接受的最坏后果定义。只有当失败模式是可存活或道德上可容忍时,选择才有意义。在此原则基础上,我们引入了一种由不可变道德核心控制的AI架构,其中安全被作为不可谈判的界限执行,而非优化目标。通过定义严格的安全底线而非理想的道德上限,该框架确保人工智能永久受限于人类可容忍的失败模式之内。
Building similarity graph...
Analyzing shared references across papers
Loading...
Vinicius Ramos Braga
Building similarity graph...
Analyzing shared references across papers
Loading...
Vinicius Ramos Braga(星期三)研究了这个问题。
www.synapsesocial.com/papers/698586498f7c464f2300a4c3 — DOI: https://doi.org/10.5281/zenodo.18486218
Synapse has enriched 5 closely related papers on similar clinical questions. Consider them for comparative context: