Los puntos clave no están disponibles para este artículo en este momento.
En los últimos años, los Modelos de Lenguaje Grande (LLMs) han avanzado significativamente hacia la Inteligencia Artificial General. Sin embargo, entrenar estos modelos desde cero requiere recursos computacionales sustanciales y grandes cantidades de datos textuales. En este artículo, exploramos un enfoque alternativo para construir un LLM para un nuevo idioma mediante el preentrenamiento continuo (CPT) a partir de LLMs preentrenados existentes, en lugar de usar parámetros inicializados aleatoriamente. Basados en experimentos paralelos con 40 tamaños de modelo que van desde 40M hasta 5B parámetros, encontramos que 1) el CPT converge más rápido y ahorra recursos significativos de manera escalable; 2) el CPT se ajusta a una ley de escala extendida derivada de Hoffmann et al. (2022) con un término conjunto de escalado datos-parámetros; 3) la asignación óptima de computación entre datos y parámetros para CPT difiere marcadamente según nuestros factores de escala estimados; 4) la efectividad de la transferencia a escala está influida por la duración del entrenamiento y las propiedades lingüísticas, mientras que es robusta a la repetición de datos, un método que mitiga efectivamente el olvido catastrófico en CPT. Esperamos que nuestros hallazgos aporten una comprensión más profunda sobre la transferibilidad de los LLMs a gran escala para la comunidad investigadora.
Building similarity graph...
Analyzing shared references across papers
Loading...
Wenzhen Zheng
Wenbo Pan
Xu Xu
Building similarity graph...
Analyzing shared references across papers
Loading...
Zheng et al. (Tue,) estudiaron esta cuestión.
www.synapsesocial.com/papers/68e61b7fb6db6435875ae65d — DOI: https://doi.org/10.48550/arxiv.2407.02118
Synapse has enriched 5 closely related papers on similar clinical questions. Consider them for comparative context: