What question did this study set out to answer?

La recherche vise à développer un cadre garantissant la stabilité et la sécurité des agents d'IA auto-améliorants pendant leurs opérations.

March 13, 2026Open Access

WhyLab : Un cadre d'audit causal pour l'auto-amélioration stable des agents

Key Points

La recherche vise à développer un cadre garantissant la stabilité et la sécurité des agents d'IA auto-améliorants pendant leurs opérations.
Développement d'un cadre d'audit causal avec trois défenses : détection de dérive basée sur la théorie de l'information, filtrage à double seuil, et amortissement adaptatif.
Réalisation d'expériences dans des environnements synthétiques pour évaluer l'efficacité des défenses proposées.
Analyse de la fiabilité de détection, des taux d'acceptation fragile, et des fréquences de violation.
C1 a significativement amélioré la fiabilité de détection à l'intérieur de l'horizon opérationnel.
C2 a conduit à une réduction marquée des taux d'acceptation fragile des résultats d'IA.
C3 a démontré la fréquence la plus basse de violations de politique avec un alignement efficace des proxies et de l'état.

Abstract

Les agents d'IA auto-améliorants manquent de garde-fous en temps réel qui empêchent la dérive de l'évaluation, l'acceptation fragile des résultats et les mises à jour illimitées des paramètres de se cumuler en une dégradation catastrophique de la politique. WhyLab introduit un cadre d'audit causal comprenant trois défenses complémentaires : C1 : Détection de dérive basée sur la théorie de l'information à travers les flux d'évaluation C2 : Filtre à double seuil E-value × Robustness Value pour les résultats fragiles C3 : Amortissement adaptatif borné par Lyapunov avec proxy énergétique observable. Des expériences sur des environnements synthétiques démontrent que C1 améliore la fiabilité de détection à l'intérieur de l'horizon, C2 réduit substantiellement les taux d'acceptation fragile, et C3 atteint la fréquence la plus basse de violation avec un alignement fort entre proxy et état. Code : https://github.com/neogenesislab/WhyLab-NeurIPS2026

Connected Papers

Building similarity graph...

Analyzing shared references across papers

Discussion

Authors

Anonymous

Actions

References and Citations

Connected Papers

Building similarity graph...

Analyzing shared references across papers

WhyLab : Un cadre d'audit causal pour l'auto-amélioration stable des agents

Key Points

Abstract

Citation Network

Connected Papers

Discussion

Authors

Actions

References and Citations

Citation Network

Connected Papers

Discussion

Cite this study

Also consider