Key points are not available for this paper at this time.
Wir untersuchen die Auswirkung eines oft in realen multilingualen Klassifikationsdatensätzen vorhandenen Ungleichgewichts: eine ungleiche Verteilung der Klassen über die Sprachen hinweg. Wir zeigen Belege dafür, dass das Feintuning eines transformerbasierten Large Language Models (LLM) auf einem Datensatz mit diesem Ungleichgewicht zu schlechteren Leistungen, einer stärker ausgeprägten Trennung der Sprachen im latenten Raum und der Förderung uninformative Merkmale führt. Wir modifizieren den traditionellen Klassengewichtsansatz bei Ungleichgewichten, indem wir die Klassen-Gewichte separat für jede Sprache berechnen, und zeigen, dass dies dazu beiträgt, diese schädlichen Effekte zu mildern. Diese Ergebnisse machen auf die negativen Effekte sprachspezifischer Klassenungleichgewichte beim multilingualen Feintuning aufmerksam und darauf, wie das Modell lernt, sich auf die Trennung der Sprachen zu stützen, um die Aufgabe zu erfüllen.
Building similarity graph...
Analyzing shared references across papers
Loading...
Vincent Jung
Lonneke van der Plas
Building similarity graph...
Analyzing shared references across papers
Loading...
Jung et al. (Tue,) haben diese Fragestellung untersucht.
www.synapsesocial.com/papers/68e786ffb6db6435876f9c1e — DOI: https://doi.org/10.48550/arxiv.2402.13016
Synapse has enriched 5 closely related papers on similar clinical questions. Consider them for comparative context: