May 30, 2024Open Access

Optimizing Attention by Exploiting Data Reuse on ARM Multi-core CPUs

Puntos clave

Los puntos clave no están disponibles para este artículo en este momento.

Resumen

Transformers reign supreme in natural language processing, representing a milestone innovation in deep learning. For high-performance model inference, optimizing the time-consuming attention module is crucial. Owing to the irregular-shaped matrix workloads and intricate data access patterns, the attention operator is bounded by memory bandwidth. Existing works utilize kernel fusion to reduce memory access overhead, resulting in promising performance enhancements. However, these efforts primarily focus on GPU or X86 architectures, leaving ARM multi-cores, commonly encountered in emerging HPC systems, insufficiently explored. We present MEATTEN, a memory-efficient attention fusion scheme and batched approach to exploit ARM multi-core CPUs effectively. It builds on fused micro-kernels and a new data layout suitable for SIMD vectorization. An analytic model is used to guide loop permutation, tiling, and batched parallelization according to the on-chip hierarchical memory architecture and workload characterization. We apply MEATTEN to three representative ARM multi-cores against state-of-the-art libraries and compilers. Experimental results demonstrate that our approach consistently outperforms prior approaches across various evaluation scenarios and platforms.

Connected Papers

Building similarity graph...

Analyzing shared references across papers

Discussion

Authors

Xiao Fu

Weiling Yang

Dezun Dong

Actions

Institutions

National University of Defense Technology

References and Citations

Connected Papers

Building similarity graph...

Analyzing shared references across papers

Optimizing Attention by Exploiting Data Reuse on ARM Multi-core CPUs

Puntos clave

Resumen

Citation Network

Connected Papers

Discussion

Authors

Actions

Institutions

References and Citations

Citation Network

Connected Papers

Discussion

Cite this study

Also consider