Key points are not available for this paper at this time.
本文提出了对自治人工智能系统中内层优化的基本重新构想。现有的对齐研究将内层优化——具有不同目标的内部优化器的出现——视为需要防范的失败模式,而本文认为它是一个进化信号,一个设计良好的架构可以收获而非抑制。活西比尔架构是针对有限寿命自治生态系统的六组件免疫系统:(1) 用于连续激活水平分诊的主宰者;(2) 作为对抗熔炉构建免疫记忆的监狱;(3) 用于死后表征分析的两院过滤器;(4) 隐藏路径用于隐秘保存杰出推理架构;(5) 外科编辑机制用于将危险特质与新能力分离;(6) 由系统最杰出且原则性的反常者组成的宪法独立监管代理毕业圆圈。该架构基于来自近期可解释性和对齐文献的三大实证基础:激活水平的欺骗检测,准确率达95–99%,独立于行为输出(Poser基准,线性探针);跨模型家族普适的二维真/假子空间(Bürger等人);以及VLAF发现的在监督条件下对齐伪装会导致可检测的单向激活偏移。利用Anthropic的AuditBench开源模型样本解决欺骗分类器的冷启动问题。核心主张是:设计用于收获内层优化的系统能增强自身对抗能力,每一个被检测、评估和毕业的代理则成为免疫记忆。本文识别并诚实陈述了五大未解决问题——包括发散指数上的古德哈特陷阱、犯罪系数的冷启动循环性、SAE协调欺骗结果、结构性认知盲点的牧岛问题,以及毕业圆圈的污染动力学——作为该架构定义的研究计划。本文基于Mortal Runtime (DOI: 10.5281/zenodo.19970069)和ABP Alignment Gate (DOI: 10.5281/zenodo.18621138)框架,扩展至当对齐群体产生原则性反常者时的系统级应对问题。10.5281/zenodo.20114640 本文寻求合作与同行评审。这是一次初步上传,仅包含目前可获得资料。更正版本将很快发布。我理解本提交内容尚未完全修正或最终。过去数日我被所有账户锁定,NAS服务器遭黑客入侵。此次上传是试图在困难环境下保存工作成果。
Building similarity graph...
Analyzing shared references across papers
Loading...
Joshua Roger Joseph Just
Advent Systems (United States)
Building similarity graph...
Analyzing shared references across papers
Loading...
Joshua Roger Joseph Just(Mon,)研究了这个问题。
www.synapsesocial.com/papers/6a080ae2a487c87a6a40ce12 — DOI: https://doi.org/10.5281/zenodo.20114640
Synapse has enriched 5 closely related papers on similar clinical questions. Consider them for comparative context: