Estudiamos modelos de lenguaje transformer, analizando cabezas de atención cuyos patrones de atención están dispersos y cuyos puntajes de atención dependen débilmente del contenido. Argumentamos que los denominadores softmax de estas cabezas son estables cuando la distribución subyacente de tokens es fija. Al muestrear denominadores softmax de un "texto de calibración", podemos combinar las salidas de múltiples de estas cabezas estables en la primera capa de GPT2-Small, aproximando su salida combinada mediante un resumen lineal del texto circundante. Esta aproximación permite un procedimiento en el que, solo a partir de los pesos y un único texto de calibración, podemos descubrir cientos de neuronas de la primera capa que responden a propiedades contextuales de alto nivel del texto circundante, incluyendo neuronas que no se activaron con el texto de calibración.
Building similarity graph...
Analyzing shared references across papers
Loading...
Alex Gibson
Building similarity graph...
Analyzing shared references across papers
Loading...
Alex Gibson (miércoles) estudió esta cuestión.
www.synapsesocial.com/papers/68e861b07ef2f04ca37e4b8a — DOI: https://doi.org/10.48550/arxiv.2510.03315