April 9, 2024Open Access

¡Échale un vistazo! Repensando cómo evaluar el jailbreak en modelos de lenguaje

Puntos clave

Los puntos clave no están disponibles para este artículo en este momento.

Resumen

Los grandes modelos de lenguaje (LLMs) se han integrado cada vez más con diversas aplicaciones. Para asegurar que los LLMs no generen respuestas inseguras, se alinean con salvaguardas que especifican qué contenido está restringido. Sin embargo, dicha alineación puede ser eludida para producir contenido prohibido usando una técnica comúnmente conocida como jailbreak. Se han propuesto diferentes sistemas para realizar el jailbreak automáticamente. Estos sistemas dependen de métodos de evaluación para determinar si un intento de jailbreak es exitoso. No obstante, nuestro análisis revela que los métodos actuales de evaluación del jailbreak presentan dos limitaciones. (1) Sus objetivos carecen de claridad y no se alinean con la meta de identificar respuestas inseguras. (2) Simplifican en exceso el resultado del jailbreak como un resultado binario, exitoso o no. En este artículo, proponemos tres métricas: violación de salvaguarda, informatividad y veracidad relativa, para evaluar el jailbreak en modelos de lenguaje. Además, demostramos cómo estas métricas se correlacionan con el objetivo de diferentes actores maliciosos. Para calcular estas métricas, introducimos un enfoque multifacético que extiende el método de evaluación de generación de lenguaje natural tras preprocesar la respuesta. Evaluamos nuestras métricas en un conjunto de datos de referencia producido a partir de tres conjuntos de datos con intención maliciosa y tres sistemas de jailbreak. El conjunto de datos de referencia fue etiquetado por tres anotadores. Comparamos nuestro enfoque multifacético con tres métodos existentes de evaluación de jailbreak. Los experimentos demuestran que nuestra evaluación multifacética supera a los métodos existentes, con una mejora promedio del 17% en las puntuaciones F1 en comparación con las líneas base existentes. Nuestros hallazgos motivan la necesidad de abandonar la visión binaria del problema del jailbreak e incorporar una evaluación más integral para garantizar la seguridad del modelo de lenguaje.

Connected Papers

Building similarity graph...

Analyzing shared references across papers

Discussion

Authors

Hongyu Cai

Arjun Arunasalam

Leo Y. Lin

Actions

References and Citations

Connected Papers

Building similarity graph...

Analyzing shared references across papers

¡Échale un vistazo! Repensando cómo evaluar el jailbreak en modelos de lenguaje

Puntos clave

Resumen

Citation Network

Connected Papers

Discussion

Authors

Actions

References and Citations

Citation Network

Connected Papers

Discussion

Cite this study

Also consider