Los puntos clave no están disponibles para este artículo en este momento.
Los grandes modelos de lenguaje (LLMs) se han integrado cada vez más con diversas aplicaciones. Para asegurar que los LLMs no generen respuestas inseguras, se alinean con salvaguardas que especifican qué contenido está restringido. Sin embargo, dicha alineación puede ser eludida para producir contenido prohibido usando una técnica comúnmente conocida como jailbreak. Se han propuesto diferentes sistemas para realizar el jailbreak automáticamente. Estos sistemas dependen de métodos de evaluación para determinar si un intento de jailbreak es exitoso. No obstante, nuestro análisis revela que los métodos actuales de evaluación del jailbreak presentan dos limitaciones. (1) Sus objetivos carecen de claridad y no se alinean con la meta de identificar respuestas inseguras. (2) Simplifican en exceso el resultado del jailbreak como un resultado binario, exitoso o no. En este artículo, proponemos tres métricas: violación de salvaguarda, informatividad y veracidad relativa, para evaluar el jailbreak en modelos de lenguaje. Además, demostramos cómo estas métricas se correlacionan con el objetivo de diferentes actores maliciosos. Para calcular estas métricas, introducimos un enfoque multifacético que extiende el método de evaluación de generación de lenguaje natural tras preprocesar la respuesta. Evaluamos nuestras métricas en un conjunto de datos de referencia producido a partir de tres conjuntos de datos con intención maliciosa y tres sistemas de jailbreak. El conjunto de datos de referencia fue etiquetado por tres anotadores. Comparamos nuestro enfoque multifacético con tres métodos existentes de evaluación de jailbreak. Los experimentos demuestran que nuestra evaluación multifacética supera a los métodos existentes, con una mejora promedio del 17% en las puntuaciones F1 en comparación con las líneas base existentes. Nuestros hallazgos motivan la necesidad de abandonar la visión binaria del problema del jailbreak e incorporar una evaluación más integral para garantizar la seguridad del modelo de lenguaje.
Building similarity graph...
Analyzing shared references across papers
Loading...
Hongyu Cai
Arjun Arunasalam
Leo Y. Lin
Building similarity graph...
Analyzing shared references across papers
Loading...
Cai et al. (Mar,) estudiaron esta cuestión.
www.synapsesocial.com/papers/68e6febab6db643587678f72 — DOI: https://doi.org/10.48550/arxiv.2404.06407
Synapse has enriched 5 closely related papers on similar clinical questions. Consider them for comparative context: