Key points are not available for this paper at this time.
L’entraînement d’un modèle multilingue unifié favorise le transfert de connaissances mais introduit inévitablement des interférences négatives. Les méthodes de modélisation spécifiques à une langue montrent un potentiel pour réduire ces interférences. Cependant, elles s’appuient souvent sur des heuristiques pour répartir la capacité et peinent à favoriser le transfert interlingue via des modules isolés. Dans cet article, nous explorons la modularité intrinsèque des tâches au sein des réseaux multilingues et exploitons ces observations pour contourner les interférences dans la traduction multilingue. Nous montrons que les neurones dans les couches à propagation avant ont tendance à s’activer de manière spécifique à une langue. Par ailleurs, ces neurones spécialisés présentent des chevauchements structurels reflétant la proximité des langues, lesquels progressent à travers les couches. Sur la base de ces constatations, nous proposons la Spécialisation des neurones, une approche qui identifie les neurones spécialisés pour modulariser les couches à propagation avant puis les met à jour continuellement via des réseaux clairsemés. Des expériences approfondies montrent que notre méthode obtient des gains de performance constants par rapport à des baselines solides, avec des analyses supplémentaires démontrant une réduction des interférences et une augmentation du transfert de connaissances.
Building similarity graph...
Analyzing shared references across papers
Loading...
Shaomu Tan
Di Wu
Christof Monz
Building similarity graph...
Analyzing shared references across papers
Loading...
Tan et al. (Wed,) ont étudié cette question.
www.synapsesocial.com/papers/68e6ecccb6db643587667e78 — DOI: https://doi.org/10.48550/arxiv.2404.11201
Synapse has enriched 5 closely related papers on similar clinical questions. Consider them for comparative context: