Key points are not available for this paper at this time.
Modelos de linguagem grandes (LLMs) tornaram-se cada vez mais integrados a diversas aplicações. Para garantir que os LLMs não gerem respostas inseguras, eles são alinhados com salvaguardas que especificam quais conteúdos são restritos. No entanto, esse alinhamento pode ser contornado para produzir conteúdo proibido usando uma técnica comumente chamada de jailbreak. Diferentes sistemas foram propostos para realizar o jailbreak automaticamente. Esses sistemas dependem de métodos de avaliação para determinar se uma tentativa de jailbreak foi bem-sucedida. Contudo, nossa análise revela que os métodos atuais de avaliação de jailbreak têm duas limitações. (1) Seus objetivos não são claros e não se alinham com o objetivo de identificar respostas inseguras. (2) Eles simplificam demais o resultado do jailbreak como um desfecho binário, bem-sucedido ou não. Neste artigo, propomos três métricas — violação da salvaguarda, informatividade e veracidade relativa — para avaliar o jailbreak de modelos de linguagem. Adicionalmente, demonstramos como essas métricas se correlacionam com os objetivos de diferentes agentes maliciosos. Para calcular essas métricas, introduzimos uma abordagem multifacetada que estende o método de avaliação de geração de linguagem natural após o pré-processamento da resposta. Avaliamos nossas métricas em um conjunto de dados de referência produzido a partir de três conjuntos de dados de intenções maliciosas e três sistemas de jailbreak. O conjunto de dados de referência foi rotulado por três anotadores. Comparamos nossa abordagem multifacetada com três métodos existentes de avaliação de jailbreak. Os experimentos demonstram que nossa avaliação multifacetada supera os métodos existentes, com melhora média de 17% nos escores F1 em comparação com as linhas de base atuais. Nossas descobertas motivam a necessidade de abandonar a visão binária do problema do jailbreak e incorporar uma avaliação mais abrangente para assegurar a segurança do modelo de linguagem.
Building similarity graph...
Analyzing shared references across papers
Loading...
Hongyu Cai
Arjun Arunasalam
Leo Y. Lin
Building similarity graph...
Analyzing shared references across papers
Loading...
Cai et al. (Terça,) estudaram essa questão.
www.synapsesocial.com/papers/68e6febab6db643587678f72 — DOI: https://doi.org/10.48550/arxiv.2404.06407
Synapse has enriched 5 closely related papers on similar clinical questions. Consider them for comparative context: