What type of study is this?

This is a Experimental Study study.

September 24, 2025Open Access

الذكاء الاصطناعي القابل للحكم: السلامة المثبتة تحت نماذج التهديد القصوى

Key Points

يضمن إطار GAI السلامة في الذكاء الاصطناعي من خلال فرض قواعد الحوكمة عبر آليات تشفير قوية، مما يعزز الأمان.
يُظهر تنفيذ نموذج أولي في سيناريوهات ذات مخاطر عالية نتائج مثيرة للإعجاب، مما يثبت خصائص الأمان المقترحة للإطار.
يوفر فصل الإطار بين قواعد الحوكمة والمنصة التقنية مرونة وعدم إمكانية التجاوز في ضوابط الذكاء الاصطناعي.
تؤكد البراهين الرسمية موثوقية ميزات إطار GAI، الأمر الحاسم لإدارة مخاطر الذكاء الاصطناعي الوجودية والأمنية.

Abstract

مع التقدم السريع في الذكاء الاصطناعي، تزداد مخاطر الأمان التي يشكلها الذكاء الاصطناعي بشكل متزايد، خاصة في السيناريوهات الحرجة، بما في ذلك تلك التي تشكل مخاطر وجودية. إذا أصبح الذكاء الاصطناعي خارج السيطرة، أو تم التلاعب به، أو تهرب بنشاط من آليات السلامة، فقد يسبب كوارث نظامية. طرق سلامة الذكاء الاصطناعي الحالية - مثل تحسين النماذج، ومواءمة القيم، والتدخل البشري - تعاني من قيود أساسية، بطبيعتها، عند مواجهة ذكاء اصطناعي ذو دوافع قصوى وذكاء غير محدود، ولا يمكنها ضمان الأمان. لمعالجة هذا التحدي، نقترح إطار عمل الذكاء الاصطناعي القابل للحكم (GAI) الذي يتحول من القيود الداخلية التقليدية إلى الامتثال الهيكلي القسري الخارجي استنادًا إلى آليات تشفير يصعب كسرها حسابيًا، حتى للذكاء الاصطناعي المستقبلي، في ظل نموذج التهديد المحدد والافتراضات التشفيرية المعترف بها جيدًا. يتكون إطار GAI من وحدة تطبيق قواعد بسيطة لكنها موثوقة، محددة بشكل كامل، قوية، مرنة وعامة الاستخدام (REM)؛ قواعد الحوكمة؛ ومنصة فائقة آمنة قابلة للحكم (GSSP) تقدم حماية شاملة من الاختراق أو الانحراف بواسطة الذكاء الاصطناعي. يفصل فصل قواعد الحوكمة والمنصة التقنية الطريق الفني القابل للتطبيق والقابل للتعميم لحوكمة سلامة الذكاء الاصطناعي. يقوم REM بفرض الحد الأدنى الذي تحدده قواعد الحوكمة، بينما تضمن GSSP عدم إمكانية التجاوز، ومقاومة التلاعب، وعدم القابلية للتزوير للقضاء على جميع مسارات الهجوم المحددة. تقدم هذه الورقة أيضًا برهانًا رسميًا صارمًا على خصائص الأمان لهذه الآلية وتظهر فعاليتها من خلال تنفيذ نموذج أولي تم تقييمه في سيناريوهات تمثل مخاطرة عالية.

Connected Papers

Building similarity graph...

Analyzing shared references across papers

Discussion

Authors

Donglin Wang

Wei Liang

Chun‐Yuan Chen

Actions

References and Citations

Connected Papers

Building similarity graph...

Analyzing shared references across papers

الذكاء الاصطناعي القابل للحكم: السلامة المثبتة تحت نماذج التهديد القصوى

Key Points

Abstract

Citation Network

Connected Papers

Discussion

Authors

Actions

References and Citations

Citation Network

Connected Papers

Discussion

Cite this study

Also consider