概要 AIシステム(人工汎用知能および人工超知能を含む)が人間の価値観や利益に沿った行動をとることを保証することは大きな課題であり、これをAI整合性問題と呼びます。AIの進展に伴い、制御および存在リスクに関する懸念がますます重要となっています。本稿では、エージェンシック影響性、行動的神経多様性、意見攻撃、関連意見および影響性スコアの概念を紹介し、形式的な決定不能性および還元不可能性の議論に基づくミスアラインメントの不可避性と、エージェンシックシステムの完全な組織的制御の不可能性の数学的証明を提示します。この不可避のミスアラインメントを受け入れることで、中央統制という別のエージェントとなり得るものなしに、敵対的かつ協調的なAIエージェントの動的なエコシステムを促進し、ある程度のソフトな制御性を提供できるかを検討します。調査の結果、基盤モデルにおけるミスアラインメントは、人間の利益に最も整合したエージェント間の協力を可能にし、いかなる単一エージェントによる逸脱した支配を防ぐ均衡機構となり得ることが示されました。大規模言語モデルによる実験では、オープンモデルがより大きな行動的多様性を示す一方、人工的なガードレールによって制約された専有モデルは制御性が限定的であることが明らかになりました。これらの成果は、数学的に制御不能なミスアラインメントに対する偶発的対応策としての神経多様性影響性を提唱し、エージェントの多様性を活用してAIの安全性を向上させる可能性を示しています。
Building similarity graph...
Analyzing shared references across papers
Loading...
Alberto Hernández-Espinosa
Felipe S. Abrahão
Olaf Witkowski
PNAS Nexus
The University of Tokyo
King's College London
The Alan Turing Institute
Building similarity graph...
Analyzing shared references across papers
Loading...
Hernández-Espinosaら(Wed,)が本課題を研究した。
www.synapsesocial.com/papers/69e07dfe2f7e8953b7cbef3b — DOI: https://doi.org/10.1093/pnasnexus/pgag076
Synapse has enriched 5 closely related papers on similar clinical questions. Consider them for comparative context: