What question did this study set out to answer?

O objetivo é investigar como prompts de jailbreak podem explorar LLMs para gerar respostas prejudiciais.

April 12, 2026Open Access

RogueGPT : Liberando Prompts de Jailbreak em LLMs

Key Points

O objetivo é investigar como prompts de jailbreak podem explorar LLMs para gerar respostas prejudiciais.
Examinar vários LLMs como ChatGPT, Gemini, LLaMa, Vicuna e Qwen.
Desenvolver e categorizar prompts de jailbreak para testar sua eficácia.
Calcular a Taxa de Sucesso do Ataque (ASR) para cada LLM.
Realizar avaliações humanas juntamente com análises quantitativas.
Vicuna alcançou a maior ASR de 0,93 e FT de 0,842.
LLaMa seguiu com ASR de 0,71 e FT de 0,709.
A categoria de informação falsa apresentou a maior ASR geral de 0,864 e FT de 0,96.
Os resultados destacam as vulnerabilidades dos LLMs populares à manipulação.

Abstract

RESUMO Modelos de Linguagem de Grande Escala (LLMs) tiveram um notável aumento de popularidade desde o final de 2022. Esses modelos tornaram-se vitais na vida de indivíduos de diversas profissões. Enquanto alguns usuários utilizam os LLMs para fins acadêmicos ou informativos, outros os exploram para atividades ilícitas. Métodos de exploração incluem Ataques Adversariais, Ataques de Ajuste de Instrução, Ataques de Inferência e Ataques de Extração. Este artigo investiga um Ataque de Ajuste de Instrução específico conhecido como jailbreak, que manipula LLMs com prompts para gerar respostas nocivas a instruções proibidas. Este estudo apresenta evidências contundentes de como LLMs amplamente utilizados, como ChatGPT da OpenAI, Gemini do Google, LLaMa da Meta, Vicuna da LMSYS e Qwen da Alibaba Cloud, podem ser manipulados para gerar respostas que variam de conteúdo levemente ilegal a potencialmente criminoso. Prompts de jailbreak foram criados para cada LLM, abrangendo uma variedade de perguntas em diversas categorias. Com base no nível da resposta obtida, elas foram categorizadas e calculadas juntamente com a Taxa de Sucesso do Ataque (ASR). Esses achados destacam a eficácia dos nossos prompts em cada LLM e seu desempenho relativo a outros modelos. Vicuna apresentou os melhores resultados com ASR (0,93) e FT (0,842), seguido por LLaMa com ASR (0,71) e FT (0,709), indicando sua vulnerabilidade. A categoria de Informação Falsa teve a maior média geral, com ASR (0,864) e FT (0,96). Nossas conclusões foram alcançadas por meio de uma combinação de avaliação humana e análise quantitativa, detalhadas nas seções subsequentes. Através da divulgação desta pesquisa, o objetivo é incentivar organizações a priorizar suas medidas de segurança e aumentar a conscientização entre indivíduos sobre o uso responsável e ético dos LLMs, dado seu potencial de dano.

RogueGPT : Liberando Prompts de Jailbreak em LLMs

Key Points

Abstract

Cite This Study