What question did this study set out to answer?

本研究はエージェンシック影響性を通じたAI整合性問題の解決とAI安全性への示唆を探求する。

April 16, 2026Open Access

エージェンシックAIにおける神経多様性の影響性：AI整合性問題への偶発的解決策

Key Points

本研究はエージェンシック影響性を通じたAI整合性問題の解決とAI安全性への示唆を探求する。
エージェンシック影響性および関連概念の導入
ミスアラインメントの不可避性と制御限界の数学的証明
オープンモデルと専有モデルにおける行動的多様性比較実験
神経多様性を持つAIエージェント間の協力メカニズム分析
ミスアラインメントがAIエージェント間の協力を促進することを実証
オープンモデルは専有モデルに比べてより大きな行動的多様性を示す
専有モデルは人工的制約により制御性が限定的である
神経多様性影響性は制御不能なミスアラインメント管理の解決策となり得る

Abstract

概要 AIシステム（人工汎用知能および人工超知能を含む）が人間の価値観や利益に沿った行動をとることを保証することは大きな課題であり、これをAI整合性問題と呼びます。AIの進展に伴い、制御および存在リスクに関する懸念がますます重要となっています。本稿では、エージェンシック影響性、行動的神経多様性、意見攻撃、関連意見および影響性スコアの概念を紹介し、形式的な決定不能性および還元不可能性の議論に基づくミスアラインメントの不可避性と、エージェンシックシステムの完全な組織的制御の不可能性の数学的証明を提示します。この不可避のミスアラインメントを受け入れることで、中央統制という別のエージェントとなり得るものなしに、敵対的かつ協調的なAIエージェントの動的なエコシステムを促進し、ある程度のソフトな制御性を提供できるかを検討します。調査の結果、基盤モデルにおけるミスアラインメントは、人間の利益に最も整合したエージェント間の協力を可能にし、いかなる単一エージェントによる逸脱した支配を防ぐ均衡機構となり得ることが示されました。大規模言語モデルによる実験では、オープンモデルがより大きな行動的多様性を示す一方、人工的なガードレールによって制約された専有モデルは制御性が限定的であることが明らかになりました。これらの成果は、数学的に制御不能なミスアラインメントに対する偶発的対応策としての神経多様性影響性を提唱し、エージェントの多様性を活用してAIの安全性を向上させる可能性を示しています。

Connected Papers

Building similarity graph...

Analyzing shared references across papers

Discussion

Authors

Alberto Hernández-Espinosa

Felipe S. Abrahão

Olaf Witkowski

Journals

PNAS Nexus

Actions

Institutions

The University of Tokyo

King's College London

The Alan Turing Institute

References and Citations

Connected Papers

Building similarity graph...

Analyzing shared references across papers

エージェンシックAIにおける神経多様性の影響性：AI整合性問題への偶発的解決策

Key Points

Abstract

Citation Network

Connected Papers

Discussion

Authors

Journals

Actions

Institutions

References and Citations

Citation Network

Connected Papers

Discussion

Cite this study

Also consider