La atención multi-cabeza impulsa las redes Transformer, la arquitectura principal de aprendizaje profundo detrás del éxito de los grandes modelos de lenguaje (LLM). Sin embargo, las ventajas teóricas de la atención multi-cabeza frente a la atención de una sola cabeza, más allá del simple procesamiento paralelo, siguen siendo poco exploradas. En este artículo, replanteamos la atención multi-cabeza como un sistema de grafos computacionales potencialmente sinérgicos, donde cada cabeza funciona como un grafo acíclico dirigido feedforward (DAG) con un estado sumidero común. Proporcionamos intuición y un análisis teórico preliminar sobre el tiempo de mezcla y la fidelidad minimax en este marco. Nuestros resultados muestran que la atención multi-cabeza puede potenciar sinérgicamente la propagación de información, produciendo tiempos de mezcla más rápidos y amplificación de la fidelidad minimax bajo condiciones específicas de diversidad entre cabezas. Finalmente, entrenamos Transformers de una sola cabeza y multi-cabeza, cada uno con el mismo número total de parámetros, en tareas de manipulación de secuencias y verificamos empíricamente los efectos predichos.
Building similarity graph...
Analyzing shared references across papers
Loading...
Haitz Sáez de Ocáriz Borde
Building similarity graph...
Analyzing shared references across papers
Loading...
Haitz Sáez de Ocáriz Borde (Sat,) estudió esta cuestión.
www.synapsesocial.com/papers/68f5fcdc8d54a28a75cf2399 — DOI: https://doi.org/10.48550/arxiv.2507.02944
Synapse has enriched 5 closely related papers on similar clinical questions. Consider them for comparative context: