Investigamos cómo los modelos de lenguaje basados en Transformer procesan entradas de distintas longitudes mediante ablación sistemática de cabezas de atención. A través de cinco modelos de tres familias arquitectónicas (GPT-2, LLaMA, OPT), identificamos una transición consistente en el modo de procesamiento: las entradas con menos de aproximadamente 4 tokens son manejadas por cabezas de atención que operan de forma independiente (índice de redundancia R ≈ 1–2), mientras que las entradas más largas requieren una integración coordinada y multi-cabeza (R > 36, hasta 356×). Introducimos el índice de redundancia, una métrica diagnóstica simple que cuantifica el grado de procesamiento distribuido dentro de una capa. Además, los cinco modelos exhiben efectos significativos de garden-path — un aumento de la sorpresa en puntos de desambiguación sintáctica (p < 0.05 en todos los casos) — y la ablación de la Capa 0 en modelos más pequeños reduce este efecto en un 83%, sugiriendo que las capas iniciales se especializan en el compromiso sintáctico inicial. Estos hallazgos tienen implicaciones prácticas: (1) las cabezas de atención de la Capa 0 pueden ser podadas para tareas con entradas cortas sin pérdida de rendimiento, (2) el procesamiento sintáctico está localizado en capas tempranas en modelos pequeños pero se distribuye en los más grandes, y (3) el índice de redundancia proporciona una herramienta independiente del modelo para analizar la coordinación de cabezas de atención.
Building similarity graph...
Analyzing shared references across papers
Loading...
Yūki Ichikawa
Showa University
Building similarity graph...
Analyzing shared references across papers
Loading...
Yūki Ichikawa (Mon,) estudió esta cuestión.
www.synapsesocial.com/papers/698c1c46267fb587c655e8d8 — DOI: https://doi.org/10.5281/zenodo.18538836
Synapse has enriched 5 closely related papers on similar clinical questions. Consider them for comparative context: