Key points are not available for this paper at this time.
Este artigo apresenta um estudo sobre estratégias para aprimorar as capacidades de tradução de grandes modelos de linguagem (LLMs) no contexto de tarefas de tradução automática (MT). O artigo propõe um novo paradigma consistindo em três etapas: Pré-treinamento Secundário usando Dados Monolíngues Extensos, Pré-treinamento Contínuo com Documentos em Formato de Texto Interlinear e Aproveitamento de Instrução Consistente com a Língua de Origem para o Ajuste Fino Supervisionado. Pesquisas anteriores sobre LLMs focaram em diversas estratégias para ajuste fino supervisionado (SFT), mas sua eficácia tem sido limitada. Enquanto abordagens tradicionais de tradução automática dependem de grandes quantidades de dados bilíngues paralelos, nosso paradigma destaca a importância de usar conjuntos menores de dados bilíngues de alta qualidade. Defendemos que o foco deve estar em potencializar as habilidades de alinhamento cruzado linguístico dos LLMs durante o pré-treinamento, ao invés de depender exclusivamente de dados bilíngues extensos durante o SFT. Resultados experimentais realizados com o modelo Llama2, particularmente no Chinese-Llama2 após aumento de dados monolíngues, demonstram as melhoradas capacidades de tradução dos LLMs. Uma contribuição significativa de nossa abordagem reside na Etapa 2: Pré-treinamento Contínuo com Documentos em Formato de Texto Interlinear, que requer menos de 1B de dados de treinamento, tornando nosso método altamente eficiente. Além disso, na Etapa 3, observamos que definir instruções consistentes com a língua de origem beneficia o processo de ajuste fino supervisionado. Resultados experimentais mostram que nossa abordagem supera trabalhos anteriores e alcança desempenho superior em comparação com modelos como NLLB-54B e GPT3.5-text-davinci-003, mesmo com uma contagem significativamente menor de parâmetros, de apenas 7B ou 13B. Essa conquista estabelece nosso método como uma estratégia pioneira no campo da tradução automática.
Building similarity graph...
Analyzing shared references across papers
Loading...
Jiaxin Guo
Yang Hao
Zongyao Li
Building similarity graph...
Analyzing shared references across papers
Loading...
Guo et al. (Sun,) estudaram esta questão.
www.synapsesocial.com/papers/68e73b88b6db6435876b49ec — DOI: https://doi.org/10.48550/arxiv.2403.11430
Synapse has enriched 5 closely related papers on similar clinical questions. Consider them for comparative context: