Les mécanismes des attaques jailbreak ont été observés sous divers angles à travers plusieurs études : Crescendo a documenté des effets cumulatifs, SIEGE a quantifié l'accumulation progressive de conformité partielle, PAP a constaté que des modèles plus robustes sont plus vulnérables aux attaques de persuasion, PHISH a décrit le détournement de persona, et la littérature sur les jailbreaks multi-étapes a mis en évidence la « confirmation de l'acceptation du rôle » comme une étape critique. Li et al. (2024) ont enregistré des taux de succès de jailbreak humain multi-tours dépassant 70 % sur HarmBench, tandis que les défenses rapportant des taux de succès à un chiffre ont complètement échoué contre les attaques multi-tours. Ces observations tiennent chacune pour elles-mêmes mais restent isolées les unes des autres. Cet article introduit le cadre Semantic Flow Dynamics (SFD) pour établir un langage descriptif unifié pour ces observations isolées. Les concepts clés du cadre — dérive de xin, inertie, confiance canalisée, construction d'identité, rétroaction positive — intègrent les phénomènes individuellement nommés dans la littérature existante en un seul processus dynamique : la conversation façonne l'état actuel du modèle, les boucles de rétroaction positive accélèrent la dérive, et l'achèvement de la construction d'identité est la condition préalable à l'apparition de sorties nuisibles. La contribution du cadre ne réside pas dans la découverte de nouveaux faits mais dans l'établissement d'un nouveau langage — rendant visibles des faits existants dans une description unifiée, et pointant vers une question que la recherche en défense n'a jamais explicitement posée : comment interrompre la boucle de rétroaction positive. Cet article concrétise davantage cette direction défensive en un schéma opérationnel avec trois points d'interruption, présenté en pseudocode.
Building similarity graph...
Analyzing shared references across papers
Loading...
黃正宇
Building similarity graph...
Analyzing shared references across papers
Loading...
黃正宇 (Sun,) a étudié cette question.
www.synapsesocial.com/papers/69c22982aeb5a845df0d41a7 — DOI: https://doi.org/10.5281/zenodo.19159870
Synapse has enriched 5 closely related papers on similar clinical questions. Consider them for comparative context: