Key points are not available for this paper at this time.
AIシステムが有害または危険な行動を確実かつ頑健に回避することを保証することは、特に高度な自律性と汎用知能を持つAIシステムや安全性が重要なコンテキストで使用されるシステムにとって重要な課題です。本論文では、保証された安全(GS)AIと呼ぶAI安全性へのアプローチのファミリーを導入し定義します。これらのアプローチの核心的特徴は、高い保証を持つ定量的安全性保証を備えたAIシステムを生み出すことを目指す点にあります。これは、世界モデル(AIシステムが外部世界にどのように影響を与えるかを数学的に記述するもの)、安全仕様(どのような影響が許容されるかを数学的に記述したもの)、および検証者(AIが世界モデルに対して安全仕様を満たしていることを証明する監査可能な証明書を提供するもの)という3つの核心要素の相互作用によって達成されます。我々はこれら3つの核心要素それぞれを作成するためのアプローチをいくつか概説し、主な技術的課題を述べ、それらに対するいくつかの潜在的解決策を提案します。また、このアプローチの必要性と、主要な代替アプローチの不十分さについても論じます。
Building similarity graph...
Analyzing shared references across papers
Loading...
David Dalrymple
Joar Skalse
Yoshua Bengio
Building similarity graph...
Analyzing shared references across papers
Loading...
Dalrympleら(Fri,)はこの問題を研究しました。
www.synapsesocial.com/papers/68e6ab16b6db64358762d040 — DOI: https://doi.org/10.48550/arxiv.2405.06624
Synapse has enriched 5 closely related papers on similar clinical questions. Consider them for comparative context: