July 2, 2024Open Access

Rompiendo Barreras Lingüísticas: Pre-Entrenamiento Continuo Multilingüe a Gran Escala

Puntos clave

Los puntos clave no están disponibles para este artículo en este momento.

Resumen

En los últimos años, los Modelos de Lenguaje Grande (LLMs) han avanzado significativamente hacia la Inteligencia Artificial General. Sin embargo, entrenar estos modelos desde cero requiere recursos computacionales sustanciales y grandes cantidades de datos textuales. En este artículo, exploramos un enfoque alternativo para construir un LLM para un nuevo idioma mediante el preentrenamiento continuo (CPT) a partir de LLMs preentrenados existentes, en lugar de usar parámetros inicializados aleatoriamente. Basados en experimentos paralelos con 40 tamaños de modelo que van desde 40M hasta 5B parámetros, encontramos que 1) el CPT converge más rápido y ahorra recursos significativos de manera escalable; 2) el CPT se ajusta a una ley de escala extendida derivada de Hoffmann et al. (2022) con un término conjunto de escalado datos-parámetros; 3) la asignación óptima de computación entre datos y parámetros para CPT difiere marcadamente según nuestros factores de escala estimados; 4) la efectividad de la transferencia a escala está influida por la duración del entrenamiento y las propiedades lingüísticas, mientras que es robusta a la repetición de datos, un método que mitiga efectivamente el olvido catastrófico en CPT. Esperamos que nuestros hallazgos aporten una comprensión más profunda sobre la transferibilidad de los LLMs a gran escala para la comunidad investigadora.

Connected Papers

Building similarity graph...

Analyzing shared references across papers

Discussion

Authors

Wenzhen Zheng

Wenbo Pan

Xu Xu

Actions

References and Citations

Connected Papers

Building similarity graph...

Analyzing shared references across papers

Rompiendo Barreras Lingüísticas: Pre-Entrenamiento Continuo Multilingüe a Gran Escala

Puntos clave

Resumen

Citation Network

Connected Papers

Discussion

Authors

Actions

References and Citations

Citation Network

Connected Papers

Discussion

Cite this study

Also consider