June 19, 2024Open Access

Investigando o Surgimento do Alinhamento Cross-lingual durante o Treinamento de LLMs

Key Points

Key points are not available for this paper at this time.

Abstract

Modelos Multilíngues de Grande Porte (LLMs) alcançam níveis notáveis de desempenho em transferência cross-lingual zero-shot. Especulamos que isso se baseia na capacidade deles de alinhar idiomas sem supervisão explícita de sentenças paralelas. Embora se saiba que representações de sentenças translacionalmente equivalentes em diferentes idiomas são similares após a convergência, ainda não está claro como esse alinhamento cross-lingual emerge durante o pré-treinamento de LLMs. Nosso estudo utiliza técnicas de probing intrínseco, que identificam quais subconjuntos de neurônios codificam características linguísticas, para correlacionar o grau de sobreposição de neurônios cross-lingual com o desempenho de transferência cross-lingual zero-shot para um dado modelo. Em particular, baseamo-nos em checkpoints do BLOOM, um LLM autorregressivo multilíngue, em diferentes etapas de treinamento e escalas de modelo. Observamos uma alta correlação entre a sobreposição de neurônios e o desempenho em tarefas downstream, o que apoia nossa hipótese sobre as condições que levam à transferência cross-lingual eficaz. Curiosamente, também detectamos uma degradação tanto do alinhamento implícito quanto das habilidades multilíngues em certas fases do processo de pré-treinamento, fornecendo novos insights sobre a dinâmica do pré-treinamento multilíngue.

Connected Papers

Building similarity graph...

Analyzing shared references across papers

Discussion

Authors

Hetong Wang

Pasquale Minervini

Edoardo Maria Ponti

Actions

References and Citations

Connected Papers

Building similarity graph...

Analyzing shared references across papers

Investigando o Surgimento do Alinhamento Cross-lingual durante o Treinamento de LLMs

Key Points

Abstract

Citation Network

Connected Papers

Discussion

Authors

Actions

References and Citations

Citation Network

Connected Papers

Discussion

Cite this study

Also consider