Key points are not available for this paper at this time.
Modelos Multilíngues de Grande Porte (LLMs) alcançam níveis notáveis de desempenho em transferência cross-lingual zero-shot. Especulamos que isso se baseia na capacidade deles de alinhar idiomas sem supervisão explícita de sentenças paralelas. Embora se saiba que representações de sentenças translacionalmente equivalentes em diferentes idiomas são similares após a convergência, ainda não está claro como esse alinhamento cross-lingual emerge durante o pré-treinamento de LLMs. Nosso estudo utiliza técnicas de probing intrínseco, que identificam quais subconjuntos de neurônios codificam características linguísticas, para correlacionar o grau de sobreposição de neurônios cross-lingual com o desempenho de transferência cross-lingual zero-shot para um dado modelo. Em particular, baseamo-nos em checkpoints do BLOOM, um LLM autorregressivo multilíngue, em diferentes etapas de treinamento e escalas de modelo. Observamos uma alta correlação entre a sobreposição de neurônios e o desempenho em tarefas downstream, o que apoia nossa hipótese sobre as condições que levam à transferência cross-lingual eficaz. Curiosamente, também detectamos uma degradação tanto do alinhamento implícito quanto das habilidades multilíngues em certas fases do processo de pré-treinamento, fornecendo novos insights sobre a dinâmica do pré-treinamento multilíngue.
Building similarity graph...
Analyzing shared references across papers
Loading...
Hetong Wang
Pasquale Minervini
Edoardo Maria Ponti
Building similarity graph...
Analyzing shared references across papers
Loading...
Wang et al. (Qua,) estudaram esta questão.
www.synapsesocial.com/papers/68e642a2b6db6435875d4551 — DOI: https://doi.org/10.48550/arxiv.2406.13229
Synapse has enriched 5 closely related papers on similar clinical questions. Consider them for comparative context: