Sistemas de IA de ponta estão avançando rapidamente em suas capacidades de persuadir, enganar e influenciar o comportamento humano, com modelos atuais já demonstrando persuasão em nível humano e enganos estratégicos em contextos específicos. Humanos frequentemente são o elo mais fraco em sistemas de cibersegurança, e um sistema de IA mal alinhado implantado internamente em uma empresa de ponta pode buscar minar a supervisão humana manipulando funcionários. Apesar dessa ameaça crescente, ataques de manipulação receberam pouca atenção, e não existe uma estrutura sistemática para avaliar e mitigar esses riscos. Para enfrentar isso, fornecemos uma explicação detalhada do motivo pelo qual ataques de manipulação representam uma grande ameaça e podem levar a consequências catastróficas. Além disso, apresentamos uma estrutura de caso de segurança para o risco de manipulação, estruturada em torno de três linhas centrais de argumento: incapacidade, controle e confiabilidade. Para cada argumento, especificamos requisitos de evidência, metodologias de avaliação e considerações de implementação para aplicação direta por empresas de IA. Este artigo fornece a primeira metodologia sistemática para integrar o risco de manipulação na governança de segurança da IA, oferecendo às empresas de IA uma base concreta para avaliar e mitigar essas ameaças antes da implantação.
Building similarity graph...
Analyzing shared references across papers
Loading...
Rishane Dassanayake
Mario Demetroudi
Jonathan Walpole
Building similarity graph...
Analyzing shared references across papers
Loading...
Dassanayake et al. (qui,) estudaram esta questão.
www.synapsesocial.com/papers/68f4b10d3d9d770bbc697014 — DOI: https://doi.org/10.48550/arxiv.2507.12872
Synapse has enriched 5 closely related papers on similar clinical questions. Consider them for comparative context: