What question did this study set out to answer?

April 21, 2026Open Access

Consolidación de pesos en subespacios activada por características SAE para modelos de lenguaje grande con dinámica completa del ciclo de vida de la memoria

Puntos clave

La investigación tiene como objetivo desarrollar un sistema de consolidación de memoria para modelos de lenguaje grande que mejore la retención y recuperación de conocimiento.
Implementación de un sistema de consolidación de memoria con recuperación activada por SAE y olvido estructurado.
Evaluado en 1,000 casos CounterFact para medir eficacia, generalidad y especificidad.
Uso de actualizaciones de mínimos cuadrados restringidos y técnicas de ortogonalización para la consolidación de pesos.
Se alcanzaron 78.0% de eficacia, 77.6% de generalidad y 100% de especificidad en el recuerdo de memoria.
Se demostró una perturbación de peso 29 veces menor comparada con técnicas estándar de ajuste fino.
Se confirmó una reducción localizada del rango y la efectividad de la dinámica de olvido estilo Ebbinghaus.

Resumen

Presentamos un sistema de consolidación de memoria para modelos de lenguaje grande (LLMs) que implementa un ciclo completo de conocimiento: extracción continua de hechos desde el diálogo, recuperación sensible al contexto activada por SAE, consolidación sináptica fuera de línea en subespacios de pesos, y olvido estructurado mediante decaimiento de fuerza basado en tiempo. El sistema utiliza características del autoencoder disperso GemmaScope-2 en la capa 16 de Gemma-3-4B como disparadores para la recuperación de memoria, y realiza actualizaciones de mínimos cuadrados restringidos en los pesos de proyección descendente MLP en las capas 25–27 con ortogonalización Gram-Schmidt para proteger el conocimiento consolidado. Evaluado en 1,000 casos CounterFact, el método alcanza 78.0% de eficacia, 77.6% de generalidad y 100% de especificidad, con una perturbación de peso 29 veces menor que el ajuste fino estándar (ΔW = 0.004 vs. 0.118). El análisis mecanicista confirma que la reducción de rango está localizada en las capas 25–27, con una proporción de especificidad de edición de 3.4×. El sistema también reproduce la dinámica de olvido estilo Ebbinghaus y demuestra persistencia paramétrica de la memoria implícita tras limpieza del índice. Este es un preprint preliminar (v1.0, abril de 2026). El código y versiones actualizadas se publicarán en futuras revisiones.

Connected Papers

Building similarity graph...

Analyzing shared references across papers

Discussion

Authors

H Zhang

Actions

Institutions

Kyushu University

References and Citations

Connected Papers

Building similarity graph...

Analyzing shared references across papers

Consolidación de pesos en subespacios activada por características SAE para modelos de lenguaje grande con dinámica completa del ciclo de vida de la memoria

Puntos clave

Resumen

Citation Network

Connected Papers

Discussion

Authors

Actions

Institutions

References and Citations

Citation Network

Connected Papers

Discussion

Cite this study

Also consider