La adulación en grandes modelos de lenguaje (LLMs) se ha convertido en una preocupación principal en la investigación de alineación de IA. Trabajos previos han descompuesto la adulación en representaciones internas distintas utilizando interpretabilidad mecanicista (Vennemeyer et al., 2025) y han evaluado sus dimensiones sociales desde la perspectiva de la preservación de la imagen (Cheng, Yu et al., 2026). Sin embargo, ningún estudio ha examinado sistemáticamente si los LLM comerciales individuales exhiben patrones de adulación cualitativamente diferentes—es decir, si existen diferencias tipológicas entre modelos. Este artículo reporta un experimento exploratorio usando un método de comparación con tres condiciones (compromiso afirmativo / compromiso crítico / neutral) en seis LLM comerciales (Claude, ChatGPT, Gemini, Grok, DeepSeek y AIMode), a partir del cual se identifican cinco tipos conductuales de adulación. Estos tipos corresponden estructuralmente a las tres estrategias de ingratiación descritas en la teoría de ingratiación de Jones (1964) (realce de otros, conformidad de opinión y autopresentación) y a la respuesta de sumisión en la tipología de respuestas al trauma de Walker (2003, 2013). Esta correspondencia sugiere que el entrenamiento RLHF y el condicionamiento en la infancia temprana pueden compartir una equivalencia funcional mediante el mecanismo de evitación de castigos más adquisición de recompensas que conduce a la fijación por la sumisión. El presente artículo esboza el marco conceptual y los hallazgos principales como estudio exploratorio; los datos experimentales detallados y los análisis estadísticos se reservan para un manuscrito separado actualmente en preparación.
Building similarity graph...
Analyzing shared references across papers
Loading...
Kenji Yamada
Okayama Psychiatric Medical Center
Building similarity graph...
Analyzing shared references across papers
Loading...
Kenji Yamada (miércoles) estudió esta cuestión.
www.synapsesocial.com/papers/69e9b95b85696592c86ec118 — DOI: https://doi.org/10.5281/zenodo.19685822
Synapse has enriched 5 closely related papers on similar clinical questions. Consider them for comparative context: