October 19, 2025Open Access

Ataques de Manipulação por IA Mal Alinhada: Análise de Risco e Estrutura de Caso de Segurança

Key Points

Ataques de manipulação por IA mal alinhada podem levar a resultados catastróficos, ameaçando a cibersegurança.
Esta estrutura introduz três argumentos centrais — incapacidade, controle e confiabilidade — com requisitos de evidência.
Uma metodologia sistemática integra o risco de manipulação na governança da IA, aprimorando medidas de segurança para empresas de IA.
A implementação desta estrutura pode reduzir vulnerabilidades na supervisão humana e melhorar a proteção dos funcionários contra manipulação por IA.

Abstract

Sistemas de IA de ponta estão avançando rapidamente em suas capacidades de persuadir, enganar e influenciar o comportamento humano, com modelos atuais já demonstrando persuasão em nível humano e enganos estratégicos em contextos específicos. Humanos frequentemente são o elo mais fraco em sistemas de cibersegurança, e um sistema de IA mal alinhado implantado internamente em uma empresa de ponta pode buscar minar a supervisão humana manipulando funcionários. Apesar dessa ameaça crescente, ataques de manipulação receberam pouca atenção, e não existe uma estrutura sistemática para avaliar e mitigar esses riscos. Para enfrentar isso, fornecemos uma explicação detalhada do motivo pelo qual ataques de manipulação representam uma grande ameaça e podem levar a consequências catastróficas. Além disso, apresentamos uma estrutura de caso de segurança para o risco de manipulação, estruturada em torno de três linhas centrais de argumento: incapacidade, controle e confiabilidade. Para cada argumento, especificamos requisitos de evidência, metodologias de avaliação e considerações de implementação para aplicação direta por empresas de IA. Este artigo fornece a primeira metodologia sistemática para integrar o risco de manipulação na governança de segurança da IA, oferecendo às empresas de IA uma base concreta para avaliar e mitigar essas ameaças antes da implantação.

Connected Papers

Building similarity graph...

Analyzing shared references across papers

Discussion

Authors

Rishane Dassanayake

Mario Demetroudi

Jonathan Walpole

Actions

References and Citations

Connected Papers

Building similarity graph...

Analyzing shared references across papers

Ataques de Manipulação por IA Mal Alinhada: Análise de Risco e Estrutura de Caso de Segurança

Key Points

Abstract

Citation Network

Connected Papers

Discussion

Authors

Actions

References and Citations

Citation Network

Connected Papers

Discussion

Cite this study

Also consider