A pesar del rápido avance de los agentes basados en LLM, la evaluación confiable de su seguridad y protección sigue siendo un desafío significativo. Los evaluadores existentes, ya sean basados en reglas o en LLM, a menudo no detectan los peligros en las acciones paso a paso de los agentes, pasan por alto significados sutiles, no ven cómo los problemas pequeños se agravan y se confunden con reglas de seguridad o protección poco claras. Para superar esta crisis de evaluación, presentamos, un marco universal, sin necesidad de entrenamiento, con razonamiento aumentado por memoria que capacita a los evaluadores LLM para emular evaluadores humanos expertos. construye una memoria experiencial haciendo que un LLM extraiga adaptativamente características semánticas estructuradas (por ejemplo, escenario, riesgo, comportamiento) y genere trazas asociadas de razonamiento en cadena para interacciones pasadas. Un proceso de generación aumentado por recuperación, de múltiples etapas y consciente del contexto, recupera dinámicamente las experiencias de razonamiento más relevantes para guiar la evaluación del LLM sobre nuevos casos. Además, desarrollamos, el primer benchmark diseñado para verificar qué tan bien los evaluadores basados en LLM pueden detectar tanto riesgos de seguridad como amenazas a la protección. comprende 2293 registros de interacción minuciosamente anotados, cubriendo 15 tipos de riesgo en 29 escenarios de aplicación. Una característica clave de es su enfoque matizado hacia situaciones de riesgo ambiguas, empleando estándares de juicio «Estricto» y «Flexible». Los experimentos demuestran que no solo mejora consistentemente el rendimiento de evaluación de los LLM en todos los benchmarks, sino que también establece un nuevo estado del arte en LLM como juez para la seguridad y protección de agentes, alcanzando una precisión a nivel humano. Nuestro trabajo es abierto y accesible.
Building similarity graph...
Analyzing shared references across papers
Loading...
Luo et al. (Sat,) estudiaron esta cuestión.
www.synapsesocial.com/papers/68e6d7971ffa7aa7d63d18d6 — DOI: https://doi.org/10.48550/arxiv.2506.00641
Synapse has enriched 5 closely related papers on similar clinical questions. Consider them for comparative context:
Hao Luo
Shengbin Dai
Cheng Ni
Building similarity graph...
Analyzing shared references across papers
Loading...