Grandes Modelos de Lenguaje (LLMs) equipados con capacidades de búsqueda web han demostrado un potencial impresionante para tareas de investigación profunda. Sin embargo, los enfoques actuales dependen predominantemente de indicaciones diseñadas manualmente (basadas en ingeniería de prompts) con un rendimiento frágil o del aprendizaje por refuerzo dentro de entornos controlados de Generación Aumentada por Recuperación (RAG, por sus siglas en inglés) que no capturan las complejidades de la interacción en el mundo real. En este artículo, presentamos DeepResearcher, el primer marco integral para el entrenamiento de agentes de investigación profunda basados en LLM mediante el escalado del aprendizaje por refuerzo (RL) en entornos del mundo real con interacciones auténticas de búsqueda web. A diferencia de los enfoques basados en RAG que asumen que toda la información necesaria existe dentro de un corpus fijo, nuestro método entrena agentes para navegar la naturaleza ruidosa, no estructurada y dinámica de la web abierta. Implementamos una arquitectura multiagente especializada donde agentes de navegación extraen información relevante de varias estructuras de páginas web superando desafíos técnicos significativos. Experimentos extensos en tareas de investigación de dominio abierto demuestran que DeepResearcher consigue mejoras sustanciales de hasta 28.9 puntos sobre las líneas base basadas en ingeniería de prompts y hasta 7.2 puntos sobre agentes RL basados en RAG. Nuestro análisis cualitativo revela comportamientos cognitivos emergentes del entrenamiento RL de extremo a extremo, incluyendo la capacidad de formular planes, validar información cruzada desde múltiples fuentes, realizar autorreflexión para redirigir la investigación y mantener honestidad cuando no se pueden encontrar respuestas definitivas. Nuestros resultados destacan que el entrenamiento de extremo a extremo en entornos web reales no es simplemente un detalle de implementación sino un requisito fundamental para desarrollar capacidades robustas de investigación alineadas con aplicaciones del mundo real. Liberamos DeepResearcher en https://github.com/GAIR-NLP/DeepResearcher.
Building similarity graph...
Analyzing shared references across papers
Loading...
Yu-Xiang Zheng
Dayuan Fu
Xiangkun Hu
Building similarity graph...
Analyzing shared references across papers
Loading...
Zheng et al. (vie,) estudiaron esta cuestión.
www.synapsesocial.com/papers/68f147cc724575985c3fcfb0 — DOI: https://doi.org/10.48550/arxiv.2504.03160
Synapse has enriched 5 closely related papers on similar clinical questions. Consider them for comparative context: