What question did this study set out to answer?

Esta investigación busca entender cómo los modelos Transformer gestionan longitudes variables de entrada e investigar el papel de diferentes capas en el procesamiento sintáctico.

February 11, 2026Open Access

Modos de procesamiento dependientes de la longitud en la atención Transformer: Evidencia de estudios de ablación multi-arquitectura

Puntos clave

Esta investigación busca entender cómo los modelos Transformer gestionan longitudes variables de entrada e investigar el papel de diferentes capas en el procesamiento sintáctico.
Se realizaron estudios de ablación en cinco modelos Transformer (GPT-2, LLaMA, OPT) para analizar funciones de las cabezas de atención.
Se midió cómo las cabezas de atención operan de manera independiente versus colaborativa según la longitud de la entrada.
Se introdujo un índice de redundancia para cuantificar el procesamiento distribuido a lo largo de las capas.
Se identificó una transición en los modos de procesamiento alrededor de 4 tokens de longitud para las cabezas de atención.
Se demostró que las entradas más largas involucran una coordinación significativamente mayor entre cabezas de atención, con índices de redundancia superiores a 36.
La ablación de la Capa 0 en modelos más pequeños redujo los efectos de garden-path en un 83%, destacando la especialización de capas tempranas.

Resumen

Investigamos cómo los modelos de lenguaje basados en Transformer procesan entradas de distintas longitudes mediante ablación sistemática de cabezas de atención. A través de cinco modelos de tres familias arquitectónicas (GPT-2, LLaMA, OPT), identificamos una transición consistente en el modo de procesamiento: las entradas con menos de aproximadamente 4 tokens son manejadas por cabezas de atención que operan de forma independiente (índice de redundancia R ≈ 1–2), mientras que las entradas más largas requieren una integración coordinada y multi-cabeza (R > 36, hasta 356×). Introducimos el índice de redundancia, una métrica diagnóstica simple que cuantifica el grado de procesamiento distribuido dentro de una capa. Además, los cinco modelos exhiben efectos significativos de garden-path — un aumento de la sorpresa en puntos de desambiguación sintáctica (p < 0.05 en todos los casos) — y la ablación de la Capa 0 en modelos más pequeños reduce este efecto en un 83%, sugiriendo que las capas iniciales se especializan en el compromiso sintáctico inicial. Estos hallazgos tienen implicaciones prácticas: (1) las cabezas de atención de la Capa 0 pueden ser podadas para tareas con entradas cortas sin pérdida de rendimiento, (2) el procesamiento sintáctico está localizado en capas tempranas en modelos pequeños pero se distribuye en los más grandes, y (3) el índice de redundancia proporciona una herramienta independiente del modelo para analizar la coordinación de cabezas de atención.

Connected Papers

Building similarity graph...

Analyzing shared references across papers

Discussion

Authors

Yūki Ichikawa

Actions

Institutions

Showa University

References and Citations

Connected Papers

Building similarity graph...

Analyzing shared references across papers

Modos de procesamiento dependientes de la longitud en la atención Transformer: Evidencia de estudios de ablación multi-arquitectura

Puntos clave

Resumen

Citation Network

Connected Papers

Discussion

Authors

Actions

Institutions

References and Citations

Citation Network

Connected Papers

Discussion

Cite this study

Also consider