What question did this study set out to answer?

El objetivo es desarrollar un marco que permita a los agentes de IA refinar continuamente su contexto sin alterar su modelo subyacente.

March 18, 2026Open Access

Hacia agentes autoevolutivos: un marco de doble proceso para el refinamiento continuo del contexto

Puntos clave

El objetivo es desarrollar un marco que permita a los agentes de IA refinar continuamente su contexto sin alterar su modelo subyacente.
Se introdujo el marco Agente de Doble Proceso (DPA) para episodios de interacción.
Se utilizó un Sistema 1 rápido para respuestas rápidas y un Sistema 2 lento para la reflexión.
Se mantuvieron entradas de memoria en formato de viñetas con estadísticas para prevenir la degradación.
Se empleó una puerta curadora para filtrar actualizaciones de memoria poco útiles.
Se realizaron experimentos en seis puntos de referencia diversos para evaluar el rendimiento.
DPA superó consistentemente al prompting básico y a baselines competitivos.
Alcanzó el mejor rendimiento general en múltiples tareas de razonamiento y conocimiento intensivo.
Demostró un efectivo refinamiento continuo del contexto en interacciones de IA.

Resumen

Los Modelos de Lenguaje Grandes (LLMs) se han vuelto esenciales para los sistemas de IA interactivos, pero permanecen fundamentalmente estáticos después de su despliegue: no pueden actualizar sus parámetros a partir del feedback de la interacción y a menudo repiten los mismos errores a lo largo de largas secuencias de interacción. Proponemos el Agente de Doble Proceso (DPA), un marco para el refinamiento continuo del contexto que permite el aprendizaje sin modificar un modelo base congelado. Inspirado en la teoría de doble proceso de la ciencia cognitiva, DPA descompone cada episodio de interacción en dos procesos complementarios: un Sistema 1 rápido que recupera contexto compacto y relevante de una memoria explícita a largo plazo y genera respuestas, y un Sistema 2 lento que reflexiona sobre los resultados y escribe actualizaciones seleccionadas de nuevo en la memoria. Para prevenir la degradación de la memoria durante interacciones prolongadas, DPA mantiene entradas de memoria en formato de viñetas con estadísticas de utilidad y emplea una puerta curadora conservadora que filtra inserciones genéricas, redundantes o conflictivas. Experimentos en seis puntos de referencia diversos demuestran que DPA supera consistentemente el prompting básico y baselines competitivos tanto en las bases GPT-5.1 como Llama-3.1-8B, logrando el mejor desempeño general en múltiples tareas que requieren razonamiento y conocimientos intensivos.

Connected Papers

Building similarity graph...

Analyzing shared references across papers

Discussion

Authors

Liangyu Teng

Wei Ni

Liang Song

Journals

Electronics

Actions

Institutions

Fudan University

China State Construction Engineering (China)

References and Citations

Connected Papers

Building similarity graph...

Analyzing shared references across papers

Hacia agentes autoevolutivos: un marco de doble proceso para el refinamiento continuo del contexto

Puntos clave

Resumen

Citation Network

Connected Papers

Discussion

Authors

Journals

Actions

Institutions

References and Citations

Citation Network

Connected Papers

Discussion

Cite this study

Also consider