Los puntos clave no están disponibles para este artículo en este momento.
La demanda de desplegar grandes modelos de lenguaje (LLMs) en dispositivos móviles continúa aumentando, impulsada por crecientes preocupaciones de seguridad de datos y costos en la nube. Sin embargo, las limitaciones de ancho de banda y memoria de la red plantean desafíos para desplegar modelos a nivel de miles de millones en dispositivos móviles. En este estudio, investigamos las salidas de diferentes capas a través de varias escalas de LLMs y encontramos que las salidas de la mayoría de las capas presentan una similitud significativa. Además, esta similitud se vuelve más pronunciada a medida que aumenta el tamaño del modelo, indicando una redundancia sustancial en la dirección de profundidad de los LLMs. Basándonos en esta observación, proponemos una estrategia eficiente de compresión del volumen del modelo, denominada FoldGPT, que combina la eliminación de bloques y el compartimiento de parámetros de bloques. Esta estrategia consta de tres partes: (1) Basándonos en los parámetros de pasaje aprendibles, determinamos el ranking de importancia de los bloques mientras modelamos el efecto de acoplamiento entre ellos. Luego eliminamos algunas capas redundantes según la tasa de eliminación dada. (2) Para los bloques retenidos, aplicamos una estrategia especialmente diseñada de compartición de parámetros en grupo, donde los bloques dentro del mismo grupo comparten pesos idénticos, comprimiendo significativamente el número de parámetros y reduciendo ligeramente la latencia adicional. (3) Después de compartir estos bloques, "curamos" el desajuste causado por la dispersión con una cantidad menor de ajuste fino e introducimos una estrategia de destilación en la capa final para mejorar el rendimiento. Los experimentos demuestran que FoldGPT supera a los métodos anteriores de última generación (SOTA) en compresión eficiente de modelos, demostrando la viabilidad de lograr un modelo ligero mediante la simple eliminación de bloques y el compartimiento de parámetros.
Building similarity graph...
Analyzing shared references across papers
Loading...
Songwei Liu
Chao Zeng
Lianqiang Li
Building similarity graph...
Analyzing shared references across papers
Loading...
Liu et al. (Sun,) estudiaron esta cuestión.
www.synapsesocial.com/papers/68e625dab6db6435875b85e5 — DOI: https://doi.org/10.48550/arxiv.2407.00928
Synapse has enriched 5 closely related papers on similar clinical questions. Consider them for comparative context: