What type of study is this?

This is a Quantitative Study study.

October 8, 2025Open Access

¡Dales una salida suave! Efectos contextuales de las barreras de seguridad de LLM en las percepciones y preferencias del usuario

Puntos clave

El cumplimiento parcial reduce las percepciones negativas del usuario en más del 50% comparado con rechazos directos, mejorando la experiencia del usuario.
El estudio involucró a 480 participantes evaluando 3,840 pares de consulta-respuesta para evaluar diferentes estrategias de rechazo y sus efectos.
El análisis incluye patrones de respuesta de 9 LLMs, destacando que rara vez usan cumplimiento parcial en la práctica.
Barreras de seguridad efectivas en IA se centran en elaborar rechazos reflexivos en lugar de solo detectar la intención del usuario.

Resumen

Los LLM actuales están entrenados para rechazar consultas potencialmente dañinas independientemente de si los usuarios tienen realmente intenciones dañinas, causando un compromiso entre seguridad y experiencia del usuario. A través de un estudio con 480 participantes evaluando 3,840 pares de consulta-respuesta, examinamos cómo diferentes estrategias de rechazo afectan las percepciones del usuario según diversas motivaciones. Nuestros hallazgos revelan que la estrategia de respuesta configura en gran medida la experiencia del usuario, mientras que la motivación real del usuario tiene un impacto insignificante. El cumplimiento parcial —proporcionar información general sin detalles accionables— emerge como la estrategia óptima, reduciendo las percepciones negativas del usuario en más del 50% en comparación con los rechazos totales. Complementando esto, analizamos los patrones de respuesta de 9 LLMs de última generación y evaluamos cómo 6 modelos de recompensa puntúan diferentes estrategias de rechazo, demostrando que los modelos raramente implementan naturalmente el cumplimiento parcial y que los modelos de recompensa actualmente lo subvaloran. Este trabajo demuestra que las barreras de seguridad efectivas requieren enfocarse en elaborar rechazos reflexivos en lugar de detectar la intención, ofreciendo un camino hacia mecanismos de seguridad en IA que aseguren tanto la seguridad como el compromiso sostenido del usuario.

Connected Papers

Building similarity graph...

Analyzing shared references across papers

Discussion

Authors

Mingqian Zheng

Wenjia Hu

P. D. Zhao

Actions

References and Citations

Connected Papers

Building similarity graph...

Analyzing shared references across papers

¡Dales una salida suave! Efectos contextuales de las barreras de seguridad de LLM en las percepciones y preferencias del usuario

Puntos clave

Resumen

Citation Network

Connected Papers

Discussion

Authors

Actions

References and Citations

Citation Network

Connected Papers

Discussion

Cite this study