Les agents d'IA auto-améliorants manquent de garde-fous en temps réel qui empêchent la dérive de l'évaluation, l'acceptation fragile des résultats et les mises à jour illimitées des paramètres de se cumuler en une dégradation catastrophique de la politique. WhyLab introduit un cadre d'audit causal comprenant trois défenses complémentaires : C1 : Détection de dérive basée sur la théorie de l'information à travers les flux d'évaluation C2 : Filtre à double seuil E-value × Robustness Value pour les résultats fragiles C3 : Amortissement adaptatif borné par Lyapunov avec proxy énergétique observable. Des expériences sur des environnements synthétiques démontrent que C1 améliore la fiabilité de détection à l'intérieur de l'horizon, C2 réduit substantiellement les taux d'acceptation fragile, et C3 atteint la fréquence la plus basse de violation avec un alignement fort entre proxy et état. Code : https://github.com/neogenesislab/WhyLab-NeurIPS2026
Building similarity graph...
Analyzing shared references across papers
Loading...
Anonymous
Building similarity graph...
Analyzing shared references across papers
Loading...
Anonymous (mer.) a étudié cette question.
www.synapsesocial.com/papers/69b3ac2b02a1e69014ccda8e — DOI: https://doi.org/10.5281/zenodo.18948929
Synapse has enriched 5 closely related papers on similar clinical questions. Consider them for comparative context: