April 9, 2024Open Access

Olhe para isso! Repensando como avaliar o jailbreak de modelos de linguagem

Key Points

Key points are not available for this paper at this time.

Abstract

Modelos de linguagem grandes (LLMs) tornaram-se cada vez mais integrados a diversas aplicações. Para garantir que os LLMs não gerem respostas inseguras, eles são alinhados com salvaguardas que especificam quais conteúdos são restritos. No entanto, esse alinhamento pode ser contornado para produzir conteúdo proibido usando uma técnica comumente chamada de jailbreak. Diferentes sistemas foram propostos para realizar o jailbreak automaticamente. Esses sistemas dependem de métodos de avaliação para determinar se uma tentativa de jailbreak foi bem-sucedida. Contudo, nossa análise revela que os métodos atuais de avaliação de jailbreak têm duas limitações. (1) Seus objetivos não são claros e não se alinham com o objetivo de identificar respostas inseguras. (2) Eles simplificam demais o resultado do jailbreak como um desfecho binário, bem-sucedido ou não. Neste artigo, propomos três métricas — violação da salvaguarda, informatividade e veracidade relativa — para avaliar o jailbreak de modelos de linguagem. Adicionalmente, demonstramos como essas métricas se correlacionam com os objetivos de diferentes agentes maliciosos. Para calcular essas métricas, introduzimos uma abordagem multifacetada que estende o método de avaliação de geração de linguagem natural após o pré-processamento da resposta. Avaliamos nossas métricas em um conjunto de dados de referência produzido a partir de três conjuntos de dados de intenções maliciosas e três sistemas de jailbreak. O conjunto de dados de referência foi rotulado por três anotadores. Comparamos nossa abordagem multifacetada com três métodos existentes de avaliação de jailbreak. Os experimentos demonstram que nossa avaliação multifacetada supera os métodos existentes, com melhora média de 17% nos escores F1 em comparação com as linhas de base atuais. Nossas descobertas motivam a necessidade de abandonar a visão binária do problema do jailbreak e incorporar uma avaliação mais abrangente para assegurar a segurança do modelo de linguagem.

Connected Papers

Building similarity graph...

Analyzing shared references across papers

Discussion

Authors

Hongyu Cai

Arjun Arunasalam

Leo Y. Lin

Actions

References and Citations

Connected Papers

Building similarity graph...

Analyzing shared references across papers

Olhe para isso! Repensando como avaliar o jailbreak de modelos de linguagem

Key Points

Abstract

Citation Network

Connected Papers

Discussion

Authors

Actions

References and Citations

Citation Network

Connected Papers

Discussion

Cite this study

Also consider