March 17, 2024Open Access

Um Novo Paradigma para Potencializar as Capacidades de Tradução de Grandes Modelos de Linguagem

Key Points

Key points are not available for this paper at this time.

Abstract

Este artigo apresenta um estudo sobre estratégias para aprimorar as capacidades de tradução de grandes modelos de linguagem (LLMs) no contexto de tarefas de tradução automática (MT). O artigo propõe um novo paradigma consistindo em três etapas: Pré-treinamento Secundário usando Dados Monolíngues Extensos, Pré-treinamento Contínuo com Documentos em Formato de Texto Interlinear e Aproveitamento de Instrução Consistente com a Língua de Origem para o Ajuste Fino Supervisionado. Pesquisas anteriores sobre LLMs focaram em diversas estratégias para ajuste fino supervisionado (SFT), mas sua eficácia tem sido limitada. Enquanto abordagens tradicionais de tradução automática dependem de grandes quantidades de dados bilíngues paralelos, nosso paradigma destaca a importância de usar conjuntos menores de dados bilíngues de alta qualidade. Defendemos que o foco deve estar em potencializar as habilidades de alinhamento cruzado linguístico dos LLMs durante o pré-treinamento, ao invés de depender exclusivamente de dados bilíngues extensos durante o SFT. Resultados experimentais realizados com o modelo Llama2, particularmente no Chinese-Llama2 após aumento de dados monolíngues, demonstram as melhoradas capacidades de tradução dos LLMs. Uma contribuição significativa de nossa abordagem reside na Etapa 2: Pré-treinamento Contínuo com Documentos em Formato de Texto Interlinear, que requer menos de 1B de dados de treinamento, tornando nosso método altamente eficiente. Além disso, na Etapa 3, observamos que definir instruções consistentes com a língua de origem beneficia o processo de ajuste fino supervisionado. Resultados experimentais mostram que nossa abordagem supera trabalhos anteriores e alcança desempenho superior em comparação com modelos como NLLB-54B e GPT3.5-text-davinci-003, mesmo com uma contagem significativamente menor de parâmetros, de apenas 7B ou 13B. Essa conquista estabelece nosso método como uma estratégia pioneira no campo da tradução automática.

Connected Papers

Building similarity graph...

Analyzing shared references across papers

Discussion

Authors

Jiaxin Guo

Yang Hao

Zongyao Li

Actions

References and Citations

Connected Papers

Building similarity graph...

Analyzing shared references across papers

Um Novo Paradigma para Potencializar as Capacidades de Tradução de Grandes Modelos de Linguagem

Key Points

Abstract

Citation Network

Connected Papers

Discussion

Authors

Actions

References and Citations

Citation Network

Connected Papers

Discussion

Cite this study

Also consider