Los puntos clave no están disponibles para este artículo en este momento.
El lenguaje es esencialmente un sistema complejo e intrincado de expresiones humanas regido por reglas gramaticales. Desarrollar algoritmos de IA capaces de comprender y dominar un lenguaje representa un desafío significativo. Como enfoque principal, el modelado del lenguaje ha sido ampliamente estudiado para la comprensión y generación del lenguaje en las últimas dos décadas, evolucionando de modelos estadísticos a modelos neuronales. Recientemente, se han propuesto modelos de lenguaje preentrenados (PLMs) mediante preentrenamiento de modelos Transformer sobre grandes corpus, mostrando fuertes capacidades para resolver diversas tareas de PLN. Dado que los investigadores han descubierto que escalar el modelo puede mejorar el rendimiento, se estudia el efecto de escalar aumentando el tamaño del modelo aún más. Curiosamente, cuando la escala de parámetros supera cierto nivel, estos modelos de lenguaje ampliados no solo logran una mejora significativa en el rendimiento sino que también muestran habilidades especiales ausentes en modelos de lenguaje a pequeña escala. Para distinguir la diferencia en la escala de parámetros, la comunidad investigadora ha acuñado el término grandes modelos de lenguaje (LLM) para los PLMs de tamaño significativo. Recientemente, la investigación sobre LLMs ha avanzado considerablemente tanto en la academia como en la industria, y un progreso notable es el lanzamiento de ChatGPT, que ha atraído gran atención de la sociedad. La evolución técnica de los LLMs está teniendo un impacto importante en toda la comunidad de IA, lo que revolucionará la manera en que desarrollamos y usamos algoritmos de IA. En esta encuesta, revisamos los avances recientes de los LLMs presentando antecedentes, hallazgos clave y técnicas principales. En particular, nos centramos en cuatro aspectos principales de los LLMs: preentrenamiento, ajuste de adaptación, utilización y evaluación de capacidad. Además, resumimos los recursos disponibles para desarrollar LLMs y discutimos problemas pendientes para direcciones futuras.
Building similarity graph...
Analyzing shared references across papers
Loading...
Wayne Xin Zhao
Kun Zhou
Junyi Li
Building similarity graph...
Analyzing shared references across papers
Loading...
Zhao et al. (vie,) estudiaron esta cuestión.
www.synapsesocial.com/papers/69d7beabf39344339dd17de0 — DOI: https://doi.org/10.48550/arxiv.2303.18223