What type of study is this?

This is a Quantitative Study study.

October 10, 2025Open Access

Descomponiendo la Atención para Encontrar Neuronas Sensibles al Contexto

Puntos clave

Las neuronas en modelos transformer de primera capa pueden responder eficazmente a propiedades sensibles al contexto.
El muestreo de denominadores softmax desde un texto de calibración permite obtener importantes conocimientos sobre la activación neuronal.
Los puntajes de atención de ciertas neuronas permanecen estables cuando la distribución de tokens es fija, lo que permite un mejor análisis.
El método aproxima salidas combinando efectivamente información de múltiples cabezas de atención estables.

Resumen

Estudiamos modelos de lenguaje transformer, analizando cabezas de atención cuyos patrones de atención están dispersos y cuyos puntajes de atención dependen débilmente del contenido. Argumentamos que los denominadores softmax de estas cabezas son estables cuando la distribución subyacente de tokens es fija. Al muestrear denominadores softmax de un "texto de calibración", podemos combinar las salidas de múltiples de estas cabezas estables en la primera capa de GPT2-Small, aproximando su salida combinada mediante un resumen lineal del texto circundante. Esta aproximación permite un procedimiento en el que, solo a partir de los pesos y un único texto de calibración, podemos descubrir cientos de neuronas de la primera capa que responden a propiedades contextuales de alto nivel del texto circundante, incluyendo neuronas que no se activaron con el texto de calibración.

Connected Papers

Building similarity graph...

Analyzing shared references across papers

Discussion

Authors

Alex Gibson

Actions

References and Citations

Connected Papers

Building similarity graph...

Analyzing shared references across papers

Descomponiendo la Atención para Encontrar Neuronas Sensibles al Contexto

Puntos clave

Resumen

Citation Network

Connected Papers

Discussion

Authors

Actions

References and Citations

Citation Network

Connected Papers

Discussion

Cite this study