مع التقدم السريع في الذكاء الاصطناعي، تزداد مخاطر الأمان التي يشكلها الذكاء الاصطناعي بشكل متزايد، خاصة في السيناريوهات الحرجة، بما في ذلك تلك التي تشكل مخاطر وجودية. إذا أصبح الذكاء الاصطناعي خارج السيطرة، أو تم التلاعب به، أو تهرب بنشاط من آليات السلامة، فقد يسبب كوارث نظامية. طرق سلامة الذكاء الاصطناعي الحالية - مثل تحسين النماذج، ومواءمة القيم، والتدخل البشري - تعاني من قيود أساسية، بطبيعتها، عند مواجهة ذكاء اصطناعي ذو دوافع قصوى وذكاء غير محدود، ولا يمكنها ضمان الأمان. لمعالجة هذا التحدي، نقترح إطار عمل الذكاء الاصطناعي القابل للحكم (GAI) الذي يتحول من القيود الداخلية التقليدية إلى الامتثال الهيكلي القسري الخارجي استنادًا إلى آليات تشفير يصعب كسرها حسابيًا، حتى للذكاء الاصطناعي المستقبلي، في ظل نموذج التهديد المحدد والافتراضات التشفيرية المعترف بها جيدًا. يتكون إطار GAI من وحدة تطبيق قواعد بسيطة لكنها موثوقة، محددة بشكل كامل، قوية، مرنة وعامة الاستخدام (REM)؛ قواعد الحوكمة؛ ومنصة فائقة آمنة قابلة للحكم (GSSP) تقدم حماية شاملة من الاختراق أو الانحراف بواسطة الذكاء الاصطناعي. يفصل فصل قواعد الحوكمة والمنصة التقنية الطريق الفني القابل للتطبيق والقابل للتعميم لحوكمة سلامة الذكاء الاصطناعي. يقوم REM بفرض الحد الأدنى الذي تحدده قواعد الحوكمة، بينما تضمن GSSP عدم إمكانية التجاوز، ومقاومة التلاعب، وعدم القابلية للتزوير للقضاء على جميع مسارات الهجوم المحددة. تقدم هذه الورقة أيضًا برهانًا رسميًا صارمًا على خصائص الأمان لهذه الآلية وتظهر فعاليتها من خلال تنفيذ نموذج أولي تم تقييمه في سيناريوهات تمثل مخاطرة عالية.
Building similarity graph...
Analyzing shared references across papers
Loading...
Donglin Wang
Wei Liang
Chun‐Yuan Chen
Building similarity graph...
Analyzing shared references across papers
Loading...
درس وانغ وآخرون (Thu،) هذا السؤال.
www.synapsesocial.com/papers/68d6e0fc8b2b6861e4c3f33c — DOI: https://doi.org/10.48550/arxiv.2508.20411
Synapse has enriched 5 closely related papers on similar clinical questions. Consider them for comparative context: