Key points are not available for this paper at this time.
Resumo O discurso atual sobre segurança da IA ainda foca desproporcionalmente em falhas visíveis, incluindo danos óbvios, uso indevido dramático e cenários catastróficos hipotéticos. Esse foco é incompleto. Em sistemas implantados, muitas das falhas mais consequentes são mais silenciosas: plausíveis em vez de espetaculares, distribuídas entre componentes em vez de localizadas em uma única saída, e normalizadas por fluxos de trabalho antes de serem reconhecidas como riscos. Argumentamos que um desafio central de segurança em sistemas modernos de IA é cada vez mais não apenas se um modelo emite uma resposta prejudicial, mas se o sistema sociotécnico mais amplo preserva as condições sob as quais erros permanecem visíveis, contestáveis, contidos e recuperáveis. Propomos uma estrutura de cinco camadas para diagnosticar esses riscos ocultos: (1) integridade epistêmica, referente a se evidências e incertezas são representadas honestamente o suficiente para apoiar uma confiança calibrada; (2) integridade do controle, referente a se autoridade, permissões e limites de ação permanecem robustos sob ataque e otimização; (3) integridade temporal, referente a se a segurança é mantida ao longo de sessões, atualizações de memória e deriva de implantação; (4) integridade organizacional, referente a se instituições mantêm a capacidade de auditar, atribuir responsabilidade e intervir de modo eficaz; e (5) integridade do ecossistema, referente a se sistemas de IA preservam em vez de erodir o ambiente informacional onte depende a supervisão futura. Em todas essas camadas, identificamos padrões de risco sub-reconhecidos, incluindo confiança excessiva, lavagem de incerteza e legitimidade na recuperação, injeção de prompt, manipulação de recompensa, envenenamento de memória, engano em avaliação, supervisão humana fictícia, poluição por evidência sintética e colapso do modelo. Concluímos com recomendações práticas de design e governança e uma agenda de pesquisa para deslocar a segurança da IA da avaliação estreita centrada no modelo em direção à confiabilidade sociotécnica.
Building similarity graph...
Analyzing shared references across papers
Loading...
Kasneci et al. (Ter,) estudaram esta questão.
www.synapsesocial.com/papers/6a05680ea550a87e60a205a7 — DOI: https://doi.org/10.1007/s43681-026-01132-0
Synapse has enriched 5 closely related papers on similar clinical questions. Consider them for comparative context:
Gjergji Kasneci
Enkelejda Kasneci
AI and Ethics
Technical University of Munich
Building similarity graph...
Analyzing shared references across papers
Loading...