What type of study is this?

This is a Quantitative Study study.

October 8, 2025Open Access

AgentAuditor: Evaluación de Seguridad y Protección a Nivel Humano para Agentes LLM

Puntos clave

El marco alcanza una precisión a nivel humano en la evaluación de la seguridad y protección de agentes LLM, demostrando un avance significativo.
Utilizando un nuevo benchmark, el marco recupera experiencias de razonamiento relevantes para mejorar las evaluaciones, abordando fallas convencionales en la evaluación.
Los experimentos muestran que el marco mejora consistentemente el rendimiento de evaluación de LLM en diversos escenarios y tipos de riesgos.
Este enfoque innovador establece un nuevo estado del arte para los LLM como evaluadores en evaluaciones de seguridad y protección, haciendo el proceso más eficiente.

Resumen

A pesar del rápido avance de los agentes basados en LLM, la evaluación confiable de su seguridad y protección sigue siendo un desafío significativo. Los evaluadores existentes, ya sean basados en reglas o en LLM, a menudo no detectan los peligros en las acciones paso a paso de los agentes, pasan por alto significados sutiles, no ven cómo los problemas pequeños se agravan y se confunden con reglas de seguridad o protección poco claras. Para superar esta crisis de evaluación, presentamos, un marco universal, sin necesidad de entrenamiento, con razonamiento aumentado por memoria que capacita a los evaluadores LLM para emular evaluadores humanos expertos. construye una memoria experiencial haciendo que un LLM extraiga adaptativamente características semánticas estructuradas (por ejemplo, escenario, riesgo, comportamiento) y genere trazas asociadas de razonamiento en cadena para interacciones pasadas. Un proceso de generación aumentado por recuperación, de múltiples etapas y consciente del contexto, recupera dinámicamente las experiencias de razonamiento más relevantes para guiar la evaluación del LLM sobre nuevos casos. Además, desarrollamos, el primer benchmark diseñado para verificar qué tan bien los evaluadores basados en LLM pueden detectar tanto riesgos de seguridad como amenazas a la protección. comprende 2293 registros de interacción minuciosamente anotados, cubriendo 15 tipos de riesgo en 29 escenarios de aplicación. Una característica clave de es su enfoque matizado hacia situaciones de riesgo ambiguas, empleando estándares de juicio «Estricto» y «Flexible». Los experimentos demuestran que no solo mejora consistentemente el rendimiento de evaluación de los LLM en todos los benchmarks, sino que también establece un nuevo estado del arte en LLM como juez para la seguridad y protección de agentes, alcanzando una precisión a nivel humano. Nuestro trabajo es abierto y accesible.

Connected Papers

Building similarity graph...

Analyzing shared references across papers

Discussion

Cite this study

Luo et al. (Sat,) estudiaron esta cuestión.

www.synapsesocial.com/papers/68e6d7971ffa7aa7d63d18d6 — DOI: https://doi.org/10.48550/arxiv.2506.00641

Also consider

Synapse has enriched 5 closely related papers on similar clinical questions. Consider them for comparative context:

Authors

Hao Luo

Shengbin Dai

Cheng Ni

Actions

References and Citations

Connected Papers

Building similarity graph...

Analyzing shared references across papers

AgentAuditor: Evaluación de Seguridad y Protección a Nivel Humano para Agentes LLM

Puntos clave

Resumen

Citation Network

Connected Papers

Discussion

Cite this study

Also consider

Authors

Actions

References and Citations

Citation Network

Connected Papers

Discussion