June 30, 2024Open Access

FoldGPT: Esquema simple y eficaz de compresión para grandes modelos de lenguaje

Puntos clave

Los puntos clave no están disponibles para este artículo en este momento.

Resumen

La demanda de desplegar grandes modelos de lenguaje (LLMs) en dispositivos móviles continúa aumentando, impulsada por crecientes preocupaciones de seguridad de datos y costos en la nube. Sin embargo, las limitaciones de ancho de banda y memoria de la red plantean desafíos para desplegar modelos a nivel de miles de millones en dispositivos móviles. En este estudio, investigamos las salidas de diferentes capas a través de varias escalas de LLMs y encontramos que las salidas de la mayoría de las capas presentan una similitud significativa. Además, esta similitud se vuelve más pronunciada a medida que aumenta el tamaño del modelo, indicando una redundancia sustancial en la dirección de profundidad de los LLMs. Basándonos en esta observación, proponemos una estrategia eficiente de compresión del volumen del modelo, denominada FoldGPT, que combina la eliminación de bloques y el compartimiento de parámetros de bloques. Esta estrategia consta de tres partes: (1) Basándonos en los parámetros de pasaje aprendibles, determinamos el ranking de importancia de los bloques mientras modelamos el efecto de acoplamiento entre ellos. Luego eliminamos algunas capas redundantes según la tasa de eliminación dada. (2) Para los bloques retenidos, aplicamos una estrategia especialmente diseñada de compartición de parámetros en grupo, donde los bloques dentro del mismo grupo comparten pesos idénticos, comprimiendo significativamente el número de parámetros y reduciendo ligeramente la latencia adicional. (3) Después de compartir estos bloques, "curamos" el desajuste causado por la dispersión con una cantidad menor de ajuste fino e introducimos una estrategia de destilación en la capa final para mejorar el rendimiento. Los experimentos demuestran que FoldGPT supera a los métodos anteriores de última generación (SOTA) en compresión eficiente de modelos, demostrando la viabilidad de lograr un modelo ligero mediante la simple eliminación de bloques y el compartimiento de parámetros.

Connected Papers

Building similarity graph...

Analyzing shared references across papers

Discussion

Authors

Songwei Liu

Chao Zeng

Lianqiang Li

Actions

References and Citations

Connected Papers

Building similarity graph...

Analyzing shared references across papers

FoldGPT: Esquema simple y eficaz de compresión para grandes modelos de lenguaje

Puntos clave

Resumen

Citation Network

Connected Papers

Discussion

Authors

Actions

References and Citations

Citation Network

Connected Papers

Discussion

Cite this study

Also consider