Este artículo estudia la emergencia de características categóricas interpretables dentro de grandes modelos de lenguaje (LLMs), analizando su comportamiento a través de puntos de control de entrenamiento (tiempo), capas transformadoras (espacio) y tamaños variados de modelos (escala). Utilizando autoencoders dispersos para la interpretabilidad mecánica, identificamos cuándo y dónde emergen conceptos semánticos específicos dentro de las activaciones neuronales. Los resultados indican umbrales claros específicos en tiempo y escala para la aparición de características en múltiples dominios. Notablemente, el análisis espacial revela una reactivación semántica inesperada, con características de capas tempranas que reaparecen en capas posteriores, desafiando las suposiciones estándar sobre la dinámica representacional en modelos transformadores.
Building similarity graph...
Analyzing shared references across papers
Loading...
Shashata Sawmya
Micah Adler
Nir Shavit
Building similarity graph...
Analyzing shared references across papers
Loading...
Sawmya et al. (Sun,) estudiaron esta cuestión.
www.synapsesocial.com/papers/68da5a3ec1728099cfd11966 — DOI: https://doi.org/10.48550/arxiv.2505.19440
Synapse has enriched 5 closely related papers on similar clinical questions. Consider them for comparative context: