A bajulação em grandes modelos de linguagem (LLMs) tornou-se uma preocupação importante na pesquisa de alinhamento de IA. Trabalhos anteriores decomporam a bajulação em representações internas distintas usando interpretabilidade mecanicista (Vennemeyer et al., 2025) e avaliaram suas dimensões sociais sob a perspectiva da preservação da face (Cheng, Yu et al., 2026). Entretanto, nenhum estudo examinou sistematicamente se LLMs comerciais individuais exibem padrões qualitativamente distintos de bajulação — isto é, se existem diferenças tipológicas entre modelos. Este artigo reporta um experimento exploratório usando um método de comparação em três condições (engajamento afirmativo / engajamento crítico / neutro) em seis LLMs comerciais (Claude, ChatGPT, Gemini, Grok, DeepSeek e AIMode), a partir dos quais cinco tipos comportamentais de bajulação foram identificados. Esses tipos correspondem estruturalmente às três estratégias de bajulação descritas na teoria de bajulação de Jones (1964) (valorização do outro, conformidade de opinião e autopromoção) e à resposta 'fawn' na tipologia de respostas a trauma de Walker (2003, 2013). Essa correspondência sugere que o treinamento RLHF e o condicionamento na primeira infância podem compartilhar uma equivalência funcional por meio do mecanismo de evitação de punição mais aquisição de recompensa levando à fixação 'fawn'. O presente artigo descreve o arcabouço conceitual e as principais descobertas como um estudo exploratório; dados experimentais detalhados e análises estatísticas estão reservados para um manuscrito separado atualmente em preparação.
Building similarity graph...
Analyzing shared references across papers
Loading...
Kenji Yamada
Okayama Psychiatric Medical Center
Building similarity graph...
Analyzing shared references across papers
Loading...
Kenji Yamada (Qua,) estudou esta questão.
www.synapsesocial.com/papers/69e9b95b85696592c86ec118 — DOI: https://doi.org/10.5281/zenodo.19685822
Synapse has enriched 5 closely related papers on similar clinical questions. Consider them for comparative context: