El rápido despliegue de agentes de modelo de lenguaje grande (LLM) en dominios críticos como la salud y las finanzas requiere marcos de seguridad robustos. Para abordar la ausencia de puntos de referencia estandarizados para la evaluación de estos agentes en entornos dinámicos, presentamos RAS-Eval, un completo punto de referencia de seguridad que soporta tanto la ejecución de herramientas simuladas como en el mundo real. RAS-Eval comprende 80 casos de prueba y 3,802 tareas de ataque mapeadas a 11 categorías del Common Weakness Enumeration (CWE), con herramientas implementadas en formatos JSON, LangGraph y Model Context Protocol (MCP). Evaluamos 6 LLMs de última generación en diversos escenarios, revelando vulnerabilidades significativas: los ataques redujeron la tasa de finalización de tareas (TCR) de los agentes en un 36.78% en promedio y lograron una tasa de éxito del 85.65% en entornos académicos. Notablemente, las leyes de escalado se mantuvieron para las capacidades de seguridad, con modelos más grandes superando a sus contrapartes más pequeños. Nuestros hallazgos exponen riesgos críticos en despliegues de agentes en el mundo real y proporcionan un marco fundamental para futuras investigaciones en seguridad. El código y los datos están disponibles en https://github.com/lanzer-tree/RAS-Eval.
Building similarity graph...
Analyzing shared references across papers
Loading...
Fu et al. (Wed,) estudiaron esta cuestión.
www.synapsesocial.com/papers/68f6379bb481a140a36cf702 — DOI: https://doi.org/10.48550/arxiv.2506.15253
Synapse has enriched 5 closely related papers on similar clinical questions. Consider them for comparative context:
Y. Fu
Xiaohan Yuan
Dongxia Wang
Building similarity graph...
Analyzing shared references across papers
Loading...