Les systèmes d'IA agentique, dotés de capacités de planification autonome et d'action, montrent un grand potentiel dans divers domaines. Cependant, leur déploiement pratique est entravé par des défis liés à l'alignement de leur comportement avec des valeurs humaines variées, des exigences complexes en matière de sécurité et des besoins spécifiques de conformité. Les méthodologies d'alignement existantes échouent souvent face à la tâche complexe de fournir un contexte personnalisé sans induire de confabulation ou d'inefficacités opérationnelles. Cet article présente une solution novatrice : un agent « surmoi », conçu comme un mécanisme de supervision personnalisé pour l'IA agentique. Ce système oriente dynamiquement la planification de l'IA en se référant aux « Constitutions de Credo » sélectionnées par l'utilisateur — englobant diverses séries de règles — avec des niveaux d'adhésion ajustables pour respecter des valeurs non négociables. Un agent de conformité en temps réel valide les plans par rapport à ces constitutions et à un socle éthique universel avant exécution. Nous présentons un système fonctionnel, incluant une interface de démonstration avec un portail prototypique de partage de constitutions, et une intégration réussie avec des modèles tiers via le Model Context Protocol (MCP). Des évaluations complètes de référence (HarmBench, AgentHarm) démontrent que notre agent Surmoi réduit drastiquement les sorties nuisibles — atteignant jusqu'à 98,3 % de réduction du score de nuisance et des taux de refus quasi parfaits (par exemple, 100 % avec Claude Sonnet 4 sur le set nuisible d'AgentHarm) pour des grands modèles de langage comme Gemini 2.5 Flash et GPT-4o. Cette approche simplifie considérablement l'alignement personnalisé de l'IA, rendant les systèmes agentiques plus justement accordés aux contextes individuels et culturels, tout en permettant des améliorations substantielles de sécurité.
Building similarity graph...
Analyzing shared references across papers
Loading...
Eleanor Watson
Ahmed Amer
Emily Harris
Information
University of Gloucestershire
St. Mary's College of Maryland
Oldham Council
Building similarity graph...
Analyzing shared references across papers
Loading...
Watson et al. (Wed,) ont étudié cette question.
www.synapsesocial.com/papers/68c19fa854b1d3bfb60db768 — DOI: https://doi.org/10.3390/info16080651
Synapse has enriched 5 closely related papers on similar clinical questions. Consider them for comparative context: