March 31, 2023Open Access

Una encuesta sobre grandes modelos de lenguaje

Puntos clave

Los puntos clave no están disponibles para este artículo en este momento.

Resumen

El lenguaje es esencialmente un sistema complejo e intrincado de expresiones humanas regido por reglas gramaticales. Desarrollar algoritmos de IA capaces de comprender y dominar un lenguaje representa un desafío significativo. Como enfoque principal, el modelado del lenguaje ha sido ampliamente estudiado para la comprensión y generación del lenguaje en las últimas dos décadas, evolucionando de modelos estadísticos a modelos neuronales. Recientemente, se han propuesto modelos de lenguaje preentrenados (PLMs) mediante preentrenamiento de modelos Transformer sobre grandes corpus, mostrando fuertes capacidades para resolver diversas tareas de PLN. Dado que los investigadores han descubierto que escalar el modelo puede mejorar el rendimiento, se estudia el efecto de escalar aumentando el tamaño del modelo aún más. Curiosamente, cuando la escala de parámetros supera cierto nivel, estos modelos de lenguaje ampliados no solo logran una mejora significativa en el rendimiento sino que también muestran habilidades especiales ausentes en modelos de lenguaje a pequeña escala. Para distinguir la diferencia en la escala de parámetros, la comunidad investigadora ha acuñado el término grandes modelos de lenguaje (LLM) para los PLMs de tamaño significativo. Recientemente, la investigación sobre LLMs ha avanzado considerablemente tanto en la academia como en la industria, y un progreso notable es el lanzamiento de ChatGPT, que ha atraído gran atención de la sociedad. La evolución técnica de los LLMs está teniendo un impacto importante en toda la comunidad de IA, lo que revolucionará la manera en que desarrollamos y usamos algoritmos de IA. En esta encuesta, revisamos los avances recientes de los LLMs presentando antecedentes, hallazgos clave y técnicas principales. En particular, nos centramos en cuatro aspectos principales de los LLMs: preentrenamiento, ajuste de adaptación, utilización y evaluación de capacidad. Además, resumimos los recursos disponibles para desarrollar LLMs y discutimos problemas pendientes para direcciones futuras.

Connected Papers

Building similarity graph...

Analyzing shared references across papers

Discussion

Authors

Wayne Xin Zhao

Kun Zhou

Junyi Li

Actions

References and Citations

Connected Papers

Building similarity graph...

Analyzing shared references across papers

Una encuesta sobre grandes modelos de lenguaje

Puntos clave

Resumen

Citation Network

Connected Papers

Discussion

Authors

Actions

References and Citations

Citation Network

Connected Papers

Discussion

Cite this study