May 2, 2024Open Access

Inferencia Eficiente y Económica de Modelos de Lenguaje Extensos con Transferencia de Atención

Puntos clave

Los puntos clave no están disponibles para este artículo en este momento.

Resumen

Los modelos de lenguaje extensos (LLMs) basados en transformadores muestran un rendimiento impresionante en tareas generativas, pero presentan desafíos significativos en su despliegue real debido al uso ineficiente de aceleradores costosos optimizados para cómputo. Esta descoordinación surge por la naturaleza autorregresiva de los LLMs, donde la fase de generación comprende operadores con demandas de recursos variables. Específicamente, el operador de atención es intensivo en memoria y exhibe un patrón de acceso a memoria que choca con las fortalezas de los aceleradores modernos, especialmente a medida que aumenta la longitud del contexto. Para mejorar la eficiencia y rentabilidad del servicio de LLM, introducimos el concepto de transferencia de atención. Este enfoque aprovecha una colección de dispositivos baratos y optimizados para memoria para el operador de atención, mientras que sigue utilizando aceleradores de alta gama para otras partes del modelo. Esta configuración heterogénea asegura que cada componente esté adaptado a su carga de trabajo específica, maximizando el rendimiento general y la eficiencia en costos. Nuestro análisis integral y experimentos confirman la viabilidad de dividir el cálculo de atención entre múltiples dispositivos. Además, el ancho de banda de comunicación requerido entre dispositivos heterogéneos resulta manejable con tecnologías de red predominantes. Para validar aún más nuestra teoría, desarrollamos Lamina, un sistema de inferencia de LLM que incorpora la transferencia de atención. Los resultados experimentales indican que Lamina puede proporcionar entre 1.48x y 12.1x mayor rendimiento estimado por dólar que las soluciones homogéneas.

Connected Papers

Building similarity graph...

Analyzing shared references across papers

Discussion

Authors

Shaoyuan Chen

Yutong Lin

Mingxing Zhang

Actions

References and Citations

Connected Papers

Building similarity graph...

Analyzing shared references across papers

Inferencia Eficiente y Económica de Modelos de Lenguaje Extensos con Transferencia de Atención

Puntos clave

Resumen

Citation Network

Connected Papers

Discussion

Authors

Actions

References and Citations

Citation Network

Connected Papers

Discussion

Cite this study

Also consider