Los puntos clave no están disponibles para este artículo en este momento.
Aumentar los grandes modelos de lenguaje (LLMs) con herramientas externas ha surgido como un enfoque prometedor para ampliar su utilidad, capacitándolos para resolver tareas prácticas. El trabajo existente típicamente capacita a los LLMs como usuarios de herramientas con un flujo de trabajo diseñado manualmente, donde el LLM planifica una serie de herramientas de manera paso a paso y ejecuta secuencialmente cada herramienta para obtener resultados intermedios hasta derivar la respuesta final. Sin embargo, enfrentan dos desafíos en escenarios realistas: (1) El flujo de control hecho a mano suele ser ad hoc y limita al LLM a planificación local; (2) El LLM está instruido para usar solo herramientas demostradas manualmente o funciones de Python bien entrenadas, lo que limita su generalización a nuevas herramientas. En este trabajo, proponemos primero la Cadena Automática de Herramientas (ATC), un marco que permite al LLM actuar como usuario multi-herramienta, que utiliza directamente una cadena de herramientas mediante programación. Para ampliar el alcance de las herramientas, proponemos además un método de sondeo caja negra. Esto potencia aún más al LLM como aprendiz de herramientas que puede descubrir activamente y documentar usos de herramientas, enseñándose a sí mismo a dominar adecuadamente nuevas herramientas. Para una evaluación integral, construimos un benchmark desafiante llamado ToolFlow, que se diferencia de benchmarks anteriores por sus escenarios de planificación a largo plazo y conjunto complejo de herramientas. Experimentos en conjuntos de datos existentes y en ToolFlow ilustran la superioridad de nuestro marco. El análisis en diferentes configuraciones también valida la efectividad y utilidad de nuestro algoritmo de sondeo caja negra.
Building similarity graph...
Analyzing shared references across papers
Loading...
Zhengliang Shi
Shen Gao
Xiuyi Chen
Building similarity graph...
Analyzing shared references across papers
Loading...
Shi et al. (Sun,) estudiaron esta cuestión.
www.synapsesocial.com/papers/68e6859fb6db64358760e65b — DOI: https://doi.org/10.48550/arxiv.2405.16533
Synapse has enriched 5 closely related papers on similar clinical questions. Consider them for comparative context: