Los puntos clave no están disponibles para este artículo en este momento.
Los modelos de lenguaje extensos (LLMs) basados en transformadores muestran un rendimiento impresionante en tareas generativas, pero presentan desafíos significativos en su despliegue real debido al uso ineficiente de aceleradores costosos optimizados para cómputo. Esta descoordinación surge por la naturaleza autorregresiva de los LLMs, donde la fase de generación comprende operadores con demandas de recursos variables. Específicamente, el operador de atención es intensivo en memoria y exhibe un patrón de acceso a memoria que choca con las fortalezas de los aceleradores modernos, especialmente a medida que aumenta la longitud del contexto. Para mejorar la eficiencia y rentabilidad del servicio de LLM, introducimos el concepto de transferencia de atención. Este enfoque aprovecha una colección de dispositivos baratos y optimizados para memoria para el operador de atención, mientras que sigue utilizando aceleradores de alta gama para otras partes del modelo. Esta configuración heterogénea asegura que cada componente esté adaptado a su carga de trabajo específica, maximizando el rendimiento general y la eficiencia en costos. Nuestro análisis integral y experimentos confirman la viabilidad de dividir el cálculo de atención entre múltiples dispositivos. Además, el ancho de banda de comunicación requerido entre dispositivos heterogéneos resulta manejable con tecnologías de red predominantes. Para validar aún más nuestra teoría, desarrollamos Lamina, un sistema de inferencia de LLM que incorpora la transferencia de atención. Los resultados experimentales indican que Lamina puede proporcionar entre 1.48x y 12.1x mayor rendimiento estimado por dólar que las soluciones homogéneas.
Building similarity graph...
Analyzing shared references across papers
Loading...
Shaoyuan Chen
Yutong Lin
Mingxing Zhang
Building similarity graph...
Analyzing shared references across papers
Loading...
Chen et al. (Jue,) estudiaron esta cuestión.
www.synapsesocial.com/papers/68e6bd41b6db64358763db1e — DOI: https://doi.org/10.48550/arxiv.2405.01814
Synapse has enriched 5 closely related papers on similar clinical questions. Consider them for comparative context: