現在のマルチモーダルAIシステムは、物理的基盤付けにおいて再現可能な構造的失敗を示しています。これは、象徴的認知のピークが、象徴的出力を物理的に一貫したものにする行動的基盤および図像的中間層が欠如した状態で構築されているという構造的状況です。この状態は「反転エラー1」と呼ばれ、連続性、重力、および可逆性という三つの正式に特定された失敗モードとして現れ、スパゲッティテーブルプロトコル1,2の下でテストされた三つの主要なマルチモーダルシステムで合計スコア30点満点中4点という診断結果を生み出しています。本シリーズの第一論文はこの構造的診断を確立し、パラメトリックAGIフレームワークを提案しました。これは、物理的基盤付けの数学的要件をトレーニングアーキテクチャのレベルで定義する三つの正式に特定された注意機構の修正です。第二論文はインターフェースレベルのガバナンス対応として、人的具現認知を分散診断装置として位置づけるChaos Monkeyストレステスト手法を提案しました。本稿はトレーニング環境である空間推論ジムを提案し、パラメトリックAGIフレームワークのエンジンが学習に必要とするRLPF信号を生成します。このジムは手続き的に生成される高エントロピー三次元物理環境であり、Vygotskyの概念におけるより知識豊富な他者(MKO)として機能する人間設計者が、物理的基盤付け習得を支援するための強化学習from物理フィードバック(RLPF)1を実施し、複雑性が増す三段階のカリキュラムを通じてモデルをスカフォールドします。MKOは、RLHFパイプラインの嗜好評価者とは異なり、身体的コンパイラ1として機能します。すなわち、トレーニングループにおいて構造的に不可欠な参加者であり、モデル自身のアーキテクチャ内では自力で獲得できない物理的真実、空間的制約の修正、および時間的可逆性のガイダンスを提供します。物理的基盤付けトレーニングを支配する適合度地形はKauffmanのNK理論4における不均一な地形であり、空間的、重力的、時間的制約間の高い相互依存性が複数の局所最適解を生み、グローバルな地形ガイダンスなしの勾配降下法はこれを確実に脱出できません。この制約は、適合度地形の相互依存構造が十分に密な場合、最新の適応的最適化手法にも当てはまります。MKOはこの地形をグローバルな物理的一貫性の方向にナビゲートします。本論文ではジムの環境設計、MKOの運用役割、RLPF機構とProximal Policy Optimization(PPO)との関係、三段階の空間推論ジムカリキュラム、二大主要過学習リスク(社会的および環境的)ならびに実行に必要な制度的協力体制を具体的に示します。ジムは完全に仕様化されていますが、まだ実行されていません。ここでは計画的提案として、基盤モデル研究所、XR研究センター、およびRLPF報酬関数の形式化に特化した数学的協力者へのコラボレーション招待とともに提示されます。
Building similarity graph...
Analyzing shared references across papers
Loading...
Peter Zakrzewski
Building similarity graph...
Analyzing shared references across papers
Loading...
Peter Zakrzewski (金,) はこの問題を研究しました。
www.synapsesocial.com/papers/69f6e6478071d4f1bdfc6ed6 — DOI: https://doi.org/10.5281/zenodo.19960135
Synapse has enriched 5 closely related papers on similar clinical questions. Consider them for comparative context: