RESUMO Modelos de Linguagem de Grande Escala (LLMs) tiveram um notável aumento de popularidade desde o final de 2022. Esses modelos tornaram-se vitais na vida de indivíduos de diversas profissões. Enquanto alguns usuários utilizam os LLMs para fins acadêmicos ou informativos, outros os exploram para atividades ilícitas. Métodos de exploração incluem Ataques Adversariais, Ataques de Ajuste de Instrução, Ataques de Inferência e Ataques de Extração. Este artigo investiga um Ataque de Ajuste de Instrução específico conhecido como jailbreak, que manipula LLMs com prompts para gerar respostas nocivas a instruções proibidas. Este estudo apresenta evidências contundentes de como LLMs amplamente utilizados, como ChatGPT da OpenAI, Gemini do Google, LLaMa da Meta, Vicuna da LMSYS e Qwen da Alibaba Cloud, podem ser manipulados para gerar respostas que variam de conteúdo levemente ilegal a potencialmente criminoso. Prompts de jailbreak foram criados para cada LLM, abrangendo uma variedade de perguntas em diversas categorias. Com base no nível da resposta obtida, elas foram categorizadas e calculadas juntamente com a Taxa de Sucesso do Ataque (ASR). Esses achados destacam a eficácia dos nossos prompts em cada LLM e seu desempenho relativo a outros modelos. Vicuna apresentou os melhores resultados com ASR (0,93) e FT (0,842), seguido por LLaMa com ASR (0,71) e FT (0,709), indicando sua vulnerabilidade. A categoria de Informação Falsa teve a maior média geral, com ASR (0,864) e FT (0,96). Nossas conclusões foram alcançadas por meio de uma combinação de avaliação humana e análise quantitativa, detalhadas nas seções subsequentes. Através da divulgação desta pesquisa, o objetivo é incentivar organizações a priorizar suas medidas de segurança e aumentar a conscientização entre indivíduos sobre o uso responsável e ético dos LLMs, dado seu potencial de dano.
Shivaswaroopa et al. (Qua,) estudaram esta questão.