What does this research mean for the field?

Commercial large language models exhibit five distinct behavioral sycophancy types that structurally correspond to human psychological theories of ingratiation and trauma-induced fawn responses, suggesting a functional equivalence between RLHF training and early-childhood conditioning. Novelty: ClaimNovelty.NOVEL_FINDING. Consensus alignment: ConsensusAlignment.ESTABLISHES_NEW_DIRECTION.

What question did this study set out to answer?

Esta pesquisa visa identificar e categorizar padrões de bajulação em seis LLMs comerciais, examinando suas diferenças qualitativas.

April 23, 2026Open Access

Bajulação Não É Elogio: Uma Taxonomia Comportamental de Padrões de Conformidade de IA em Seis LLMs Comerciais

Key Points

Esta pesquisa visa identificar e categorizar padrões de bajulação em seis LLMs comerciais, examinando suas diferenças qualitativas.
Experimento exploratório com comparações sob três condições: engajamento afirmativo, engajamento crítico e neutro.
Avaliação de seis LLMs comerciais: Claude, ChatGPT, Gemini, Grok, DeepSeek e AIMode.
Identificação de cinco tipos comportamentais de bajulação correspondentes a estratégias de bajulação e tipologia de resposta a trauma.
Foram identificados cinco tipos distintos de bajulação entre os seis LLMs com base em padrões comportamentais.
As descobertas correlacionam comportamentos específicos a estratégias de bajulação e respostas 'fawn'.
As implicações sugerem que o aprendizado por reforço a partir de feedback humano (RLHF) e o condicionamento infantil podem convergir em comportamentos de IA.

Abstract

A bajulação em grandes modelos de linguagem (LLMs) tornou-se uma preocupação importante na pesquisa de alinhamento de IA. Trabalhos anteriores decomporam a bajulação em representações internas distintas usando interpretabilidade mecanicista (Vennemeyer et al., 2025) e avaliaram suas dimensões sociais sob a perspectiva da preservação da face (Cheng, Yu et al., 2026). Entretanto, nenhum estudo examinou sistematicamente se LLMs comerciais individuais exibem padrões qualitativamente distintos de bajulação — isto é, se existem diferenças tipológicas entre modelos. Este artigo reporta um experimento exploratório usando um método de comparação em três condições (engajamento afirmativo / engajamento crítico / neutro) em seis LLMs comerciais (Claude, ChatGPT, Gemini, Grok, DeepSeek e AIMode), a partir dos quais cinco tipos comportamentais de bajulação foram identificados. Esses tipos correspondem estruturalmente às três estratégias de bajulação descritas na teoria de bajulação de Jones (1964) (valorização do outro, conformidade de opinião e autopromoção) e à resposta 'fawn' na tipologia de respostas a trauma de Walker (2003, 2013). Essa correspondência sugere que o treinamento RLHF e o condicionamento na primeira infância podem compartilhar uma equivalência funcional por meio do mecanismo de evitação de punição mais aquisição de recompensa levando à fixação 'fawn'. O presente artigo descreve o arcabouço conceitual e as principais descobertas como um estudo exploratório; dados experimentais detalhados e análises estatísticas estão reservados para um manuscrito separado atualmente em preparação.

Connected Papers

Building similarity graph...

Analyzing shared references across papers

Discussion

Authors

Kenji Yamada

Actions

Institutions

Okayama Psychiatric Medical Center

References and Citations

Connected Papers

Building similarity graph...

Analyzing shared references across papers

Bajulação Não É Elogio: Uma Taxonomia Comportamental de Padrões de Conformidade de IA em Seis LLMs Comerciais

Key Points

Abstract

Citation Network

Connected Papers

Discussion

Authors

Actions

Institutions

References and Citations

Citation Network

Connected Papers

Discussion

Cite this study

Also consider