What type of study is this?

September 10, 2025Open Access

Surmoi Agentique Personnalisé Aligné Constitutionnellement : Comportement IA Sécurisé Aligné sur des Valeurs Humaines Diverses

Key Points

Atteignant une réduction de 98,3 % des sorties nuisibles, le nouveau système aligne efficacement le comportement de l'IA avec les valeurs individuelles.
L'agent surmoi utilise des Constitutions de Credo sélectionnées par l'utilisateur, adaptant l'adhésion aux valeurs personnelles et culturelles clés.
L'application en temps réel de la conformité valide les plans d'IA selon des standards éthiques, renforçant à la fois la sécurité et la confiance utilisateur.
Des benchmarks complets démontrent des améliorations significatives en efficacité d'alignement et réduction des sorties nuisibles à travers les modèles.

Abstract

Les systèmes d'IA agentique, dotés de capacités de planification autonome et d'action, montrent un grand potentiel dans divers domaines. Cependant, leur déploiement pratique est entravé par des défis liés à l'alignement de leur comportement avec des valeurs humaines variées, des exigences complexes en matière de sécurité et des besoins spécifiques de conformité. Les méthodologies d'alignement existantes échouent souvent face à la tâche complexe de fournir un contexte personnalisé sans induire de confabulation ou d'inefficacités opérationnelles. Cet article présente une solution novatrice : un agent « surmoi », conçu comme un mécanisme de supervision personnalisé pour l'IA agentique. Ce système oriente dynamiquement la planification de l'IA en se référant aux « Constitutions de Credo » sélectionnées par l'utilisateur — englobant diverses séries de règles — avec des niveaux d'adhésion ajustables pour respecter des valeurs non négociables. Un agent de conformité en temps réel valide les plans par rapport à ces constitutions et à un socle éthique universel avant exécution. Nous présentons un système fonctionnel, incluant une interface de démonstration avec un portail prototypique de partage de constitutions, et une intégration réussie avec des modèles tiers via le Model Context Protocol (MCP). Des évaluations complètes de référence (HarmBench, AgentHarm) démontrent que notre agent Surmoi réduit drastiquement les sorties nuisibles — atteignant jusqu'à 98,3 % de réduction du score de nuisance et des taux de refus quasi parfaits (par exemple, 100 % avec Claude Sonnet 4 sur le set nuisible d'AgentHarm) pour des grands modèles de langage comme Gemini 2.5 Flash et GPT-4o. Cette approche simplifie considérablement l'alignement personnalisé de l'IA, rendant les systèmes agentiques plus justement accordés aux contextes individuels et culturels, tout en permettant des améliorations substantielles de sécurité.

Connected Papers

Building similarity graph...

Analyzing shared references across papers

Discussion

Authors

Eleanor Watson

Ahmed Amer

Emily Harris

Journals

Information

Actions

Institutions

University of Gloucestershire

St. Mary's College of Maryland

Oldham Council

References and Citations

Connected Papers

Building similarity graph...

Analyzing shared references across papers

Surmoi Agentique Personnalisé Aligné Constitutionnellement : Comportement IA Sécurisé Aligné sur des Valeurs Humaines Diverses

Key Points

Abstract

Citation Network

Connected Papers

Discussion

Authors

Journals

Actions

Institutions

References and Citations

Citation Network

Connected Papers

Discussion

Cite this study

Also consider