What type of study is this?

This is a Quantitative Study study.

October 16, 2025Open Access

DeepResearcher: Escalando la investigación profunda mediante aprendizaje por refuerzo en entornos del mundo real

Puntos clave

DeepResearcher muestra una mejora de hasta 28.9 puntos sobre métodos tradicionales de ingeniería de indicaciones, aumentando la eficiencia en investigación.
El marco innovador utiliza aprendizaje por refuerzo en entornos no estructurados, representando un avance significativo en el desarrollo de agentes de investigación profunda.
Experimentos extensos validan el rendimiento del marco, revelando la importancia del entrenamiento web en entornos del mundo real para lograr capacidades robustas de investigación.
Comportamientos cognitivos, como la validación cruzada de información y la autorreflexión, emergen como aspectos clave de agentes de investigación profunda mejorados.

Resumen

Grandes Modelos de Lenguaje (LLMs) equipados con capacidades de búsqueda web han demostrado un potencial impresionante para tareas de investigación profunda. Sin embargo, los enfoques actuales dependen predominantemente de indicaciones diseñadas manualmente (basadas en ingeniería de prompts) con un rendimiento frágil o del aprendizaje por refuerzo dentro de entornos controlados de Generación Aumentada por Recuperación (RAG, por sus siglas en inglés) que no capturan las complejidades de la interacción en el mundo real. En este artículo, presentamos DeepResearcher, el primer marco integral para el entrenamiento de agentes de investigación profunda basados en LLM mediante el escalado del aprendizaje por refuerzo (RL) en entornos del mundo real con interacciones auténticas de búsqueda web. A diferencia de los enfoques basados en RAG que asumen que toda la información necesaria existe dentro de un corpus fijo, nuestro método entrena agentes para navegar la naturaleza ruidosa, no estructurada y dinámica de la web abierta. Implementamos una arquitectura multiagente especializada donde agentes de navegación extraen información relevante de varias estructuras de páginas web superando desafíos técnicos significativos. Experimentos extensos en tareas de investigación de dominio abierto demuestran que DeepResearcher consigue mejoras sustanciales de hasta 28.9 puntos sobre las líneas base basadas en ingeniería de prompts y hasta 7.2 puntos sobre agentes RL basados en RAG. Nuestro análisis cualitativo revela comportamientos cognitivos emergentes del entrenamiento RL de extremo a extremo, incluyendo la capacidad de formular planes, validar información cruzada desde múltiples fuentes, realizar autorreflexión para redirigir la investigación y mantener honestidad cuando no se pueden encontrar respuestas definitivas. Nuestros resultados destacan que el entrenamiento de extremo a extremo en entornos web reales no es simplemente un detalle de implementación sino un requisito fundamental para desarrollar capacidades robustas de investigación alineadas con aplicaciones del mundo real. Liberamos DeepResearcher en https://github.com/GAIR-NLP/DeepResearcher.

Connected Papers

Building similarity graph...

Analyzing shared references across papers

Discussion

Authors

Yu-Xiang Zheng

Dayuan Fu

Xiangkun Hu

Actions

References and Citations

Connected Papers

Building similarity graph...

Analyzing shared references across papers

DeepResearcher: Escalando la investigación profunda mediante aprendizaje por refuerzo en entornos del mundo real

Puntos clave

Resumen

Citation Network

Connected Papers

Discussion

Authors

Actions

References and Citations

Citation Network

Connected Papers

Discussion

Cite this study

Also consider