Los LLM actuales están entrenados para rechazar consultas potencialmente dañinas independientemente de si los usuarios tienen realmente intenciones dañinas, causando un compromiso entre seguridad y experiencia del usuario. A través de un estudio con 480 participantes evaluando 3,840 pares de consulta-respuesta, examinamos cómo diferentes estrategias de rechazo afectan las percepciones del usuario según diversas motivaciones. Nuestros hallazgos revelan que la estrategia de respuesta configura en gran medida la experiencia del usuario, mientras que la motivación real del usuario tiene un impacto insignificante. El cumplimiento parcial —proporcionar información general sin detalles accionables— emerge como la estrategia óptima, reduciendo las percepciones negativas del usuario en más del 50% en comparación con los rechazos totales. Complementando esto, analizamos los patrones de respuesta de 9 LLMs de última generación y evaluamos cómo 6 modelos de recompensa puntúan diferentes estrategias de rechazo, demostrando que los modelos raramente implementan naturalmente el cumplimiento parcial y que los modelos de recompensa actualmente lo subvaloran. Este trabajo demuestra que las barreras de seguridad efectivas requieren enfocarse en elaborar rechazos reflexivos en lugar de detectar la intención, ofreciendo un camino hacia mecanismos de seguridad en IA que aseguren tanto la seguridad como el compromiso sostenido del usuario.
Building similarity graph...
Analyzing shared references across papers
Loading...
Mingqian Zheng
Wenjia Hu
P. D. Zhao
Building similarity graph...
Analyzing shared references across papers
Loading...
Zheng et al. (vie,) estudiaron esta cuestión.
www.synapsesocial.com/papers/68e6bc5f38ca8e474d549fad — DOI: https://doi.org/10.48550/arxiv.2506.00195