February 21, 2024Open Access

Investigando el Ajuste por Instrucciones Multilingües: ¿Demandan los Modelos Políglotas Instrucciones Multilingües?

Puntos clave

Los puntos clave no están disponibles para este artículo en este momento.

Resumen

La adaptación de grandes modelos de lenguaje (LLMs) multilingües preentrenados en asistentes elocuentes y útiles es esencial para facilitar su uso en distintas regiones lingüísticas. En ese sentido, somos los primeros en realizar un estudio exhaustivo del desempeño de modelos multilingües en bancos de pruebas paralelos de ajuste por instrucciones y múltiples turnos, abarcando una selección de los idiomas indoeuropeos más hablados. Examinamos sistemáticamente los efectos del idioma y del tamaño del conjunto de datos de instrucciones en un modelo LLM multilingüe de tamaño medio, ajustándolo mediante instrucciones en conjuntos de datos paralelos. Nuestros resultados demuestran que el ajuste por instrucciones usando corpus paralelos, en lugar de monolingües, beneficia las capacidades de seguimiento de instrucciones cross-lingüísticas hasta en un 4.6%. Además, mostramos que la Hipótesis de Alineación Superficial no se cumple en general, ya que el modelo multilingüe investigado de 7 mil millones de parámetros presenta un contraejemplo que requiere conjuntos de datos de instrucción a gran escala. Finalmente, realizamos un estudio de anotación humana para comprender la alineación entre la evaluación basada en humanos y la basada en GPT-4 en escenarios de chat multilingüe.

Connected Papers

Building similarity graph...

Analyzing shared references across papers

Discussion

Authors

Alexander Arno Weber

Klaudia Thellmann

Jan Ebert

Actions

References and Citations

Connected Papers

Building similarity graph...

Analyzing shared references across papers

Investigando el Ajuste por Instrucciones Multilingües: ¿Demandan los Modelos Políglotas Instrucciones Multilingües?

Puntos clave

Resumen

Citation Network

Connected Papers

Discussion

Authors

Actions

References and Citations

Citation Network

Connected Papers

Discussion

Cite this study