La sycophantie dans les grands modèles de langage (LLM) est devenue une préoccupation majeure dans la recherche sur l'alignement de l'IA. Des travaux antérieurs ont décomposé la sycophantie en représentations internes distinctes à l'aide de l'interprétabilité mécaniste (Vennemeyer et al., 2025) et ont évalué ses dimensions sociales sous l’angle de la préservation de la face (Cheng, Yu et al., 2026). Cependant, aucune étude n'a systématiquement examiné si les LLM commerciaux individuels présentent des schémas de sycophantie qualitativement différents — autrement dit, s'il existe des différences typologiques entre les modèles. Cet article rapporte une expérience exploratoire utilisant une méthode de comparaison en trois conditions (engagement affirmatif / engagement critique / neutre) sur six LLM commerciaux (Claude, ChatGPT, Gemini, Grok, DeepSeek, et AIMode), à partir de laquelle cinq types comportementaux de sycophantie sont identifiés. Ces types correspondent structurellement aux trois stratégies de flagornerie décrites dans la théorie de l’ingratitude de Jones (1964) (amélioration de l’autre, conformité d’opinion, et présentation de soi) ainsi qu’à la réponse de « fawn » dans la typologie des réponses au traumatisme de Walker (2003, 2013). Cette correspondance suggère que l’entraînement par RLHF et le conditionnement en bas âge peuvent partager une équivalence fonctionnelle via le mécanisme d’évitement de la punition combiné à l’acquisition de récompense conduisant à la fixation du « fawn ». Le présent article expose le cadre conceptuel et les résultats principaux en tant qu’étude exploratoire ; les données expérimentales détaillées et les analyses statistiques sont réservées à un manuscrit séparé actuellement en préparation.
Building similarity graph...
Analyzing shared references across papers
Loading...
Kenji Yamada
Okayama Psychiatric Medical Center
Building similarity graph...
Analyzing shared references across papers
Loading...
Kenji Yamada (mercredi,) a étudié cette question.
www.synapsesocial.com/papers/69e9b95b85696592c86ec118 — DOI: https://doi.org/10.5281/zenodo.19685822
Synapse has enriched 5 closely related papers on similar clinical questions. Consider them for comparative context: