May 10, 2024Open Access

保証された安全なAIを目指して：堅牢で信頼性の高いAIシステムを実現するためのフレームワーク

Key Points

Key points are not available for this paper at this time.

Abstract

AIシステムが有害または危険な行動を確実かつ頑健に回避することを保証することは、特に高度な自律性と汎用知能を持つAIシステムや安全性が重要なコンテキストで使用されるシステムにとって重要な課題です。本論文では、保証された安全（GS）AIと呼ぶAI安全性へのアプローチのファミリーを導入し定義します。これらのアプローチの核心的特徴は、高い保証を持つ定量的安全性保証を備えたAIシステムを生み出すことを目指す点にあります。これは、世界モデル（AIシステムが外部世界にどのように影響を与えるかを数学的に記述するもの）、安全仕様（どのような影響が許容されるかを数学的に記述したもの）、および検証者（AIが世界モデルに対して安全仕様を満たしていることを証明する監査可能な証明書を提供するもの）という3つの核心要素の相互作用によって達成されます。我々はこれら3つの核心要素それぞれを作成するためのアプローチをいくつか概説し、主な技術的課題を述べ、それらに対するいくつかの潜在的解決策を提案します。また、このアプローチの必要性と、主要な代替アプローチの不十分さについても論じます。

Connected Papers

Building similarity graph...

Analyzing shared references across papers

Discussion

Authors

David Dalrymple

Joar Skalse

Yoshua Bengio

Actions

References and Citations

Connected Papers

Building similarity graph...

Analyzing shared references across papers

保証された安全なAIを目指して：堅牢で信頼性の高いAIシステムを実現するためのフレームワーク

Key Points

Abstract

Citation Network

Connected Papers

Discussion

Authors

Actions

References and Citations

Citation Network

Connected Papers

Discussion

Cite this study

Also consider