May 14, 2026Open Access

As falhas de segurança que não estamos instrumentando: uma perspectiva sobre desafios críticos de segurança ocultos em sistemas modernos de IA

Key Points

Key points are not available for this paper at this time.

Abstract

Resumo O discurso atual sobre segurança da IA ainda foca desproporcionalmente em falhas visíveis, incluindo danos óbvios, uso indevido dramático e cenários catastróficos hipotéticos. Esse foco é incompleto. Em sistemas implantados, muitas das falhas mais consequentes são mais silenciosas: plausíveis em vez de espetaculares, distribuídas entre componentes em vez de localizadas em uma única saída, e normalizadas por fluxos de trabalho antes de serem reconhecidas como riscos. Argumentamos que um desafio central de segurança em sistemas modernos de IA é cada vez mais não apenas se um modelo emite uma resposta prejudicial, mas se o sistema sociotécnico mais amplo preserva as condições sob as quais erros permanecem visíveis, contestáveis, contidos e recuperáveis. Propomos uma estrutura de cinco camadas para diagnosticar esses riscos ocultos: (1) integridade epistêmica, referente a se evidências e incertezas são representadas honestamente o suficiente para apoiar uma confiança calibrada; (2) integridade do controle, referente a se autoridade, permissões e limites de ação permanecem robustos sob ataque e otimização; (3) integridade temporal, referente a se a segurança é mantida ao longo de sessões, atualizações de memória e deriva de implantação; (4) integridade organizacional, referente a se instituições mantêm a capacidade de auditar, atribuir responsabilidade e intervir de modo eficaz; e (5) integridade do ecossistema, referente a se sistemas de IA preservam em vez de erodir o ambiente informacional onte depende a supervisão futura. Em todas essas camadas, identificamos padrões de risco sub-reconhecidos, incluindo confiança excessiva, lavagem de incerteza e legitimidade na recuperação, injeção de prompt, manipulação de recompensa, envenenamento de memória, engano em avaliação, supervisão humana fictícia, poluição por evidência sintética e colapso do modelo. Concluímos com recomendações práticas de design e governança e uma agenda de pesquisa para deslocar a segurança da IA da avaliação estreita centrada no modelo em direção à confiabilidade sociotécnica.

Connected Papers

Building similarity graph...

Analyzing shared references across papers

Discussion

Cite this study

Kasneci et al. (Ter,) estudaram esta questão.

www.synapsesocial.com/papers/6a05680ea550a87e60a205a7 — DOI: https://doi.org/10.1007/s43681-026-01132-0

Also consider

Synapse has enriched 5 closely related papers on similar clinical questions. Consider them for comparative context:

Sycophancy to Subterfuge: Investigating Reward-Tampering in Large Language Models· 2024 · 6 citations
An Early Categorization of Prompt Injection Attacks on Large Language Models· 2024 · 6 citations
Not What You've Signed Up For: Compromising Real-World LLM-Integrated Applications with Indirect Prompt Injection· 2023 · 315 citations
Unveiling Privacy Risks in LLM Agent Memory· 2025 · 8 citations
AgentDojo: A Dynamic Environment to Evaluate Prompt Injection Attacks and Defenses for LLM Agents

Authors

Gjergji Kasneci

Enkelejda Kasneci

Journals

AI and Ethics

Actions

Institutions

Technical University of Munich

References and Citations

Connected Papers

Building similarity graph...

Analyzing shared references across papers

As falhas de segurança que não estamos instrumentando: uma perspectiva sobre desafios críticos de segurança ocultos em sistemas modernos de IA

Key Points

Abstract

Citation Network

Connected Papers

Discussion

Cite this study

Also consider

Authors

Journals

Actions

Institutions

References and Citations

Citation Network

Connected Papers

Discussion