Key points are not available for this paper at this time.
Groß angelegte neuronale Modelle zeigen beeindruckende Leistungen bei einer Vielzahl sprachlicher Aufgaben. Trotz dessen bleiben sie größtenteils Blackboxes – sie erzeugen Vektor-Repräsentationen ihres Inputs, die schwer zu interpretieren sind. Dies begrenzt unsere Fähigkeit zu verstehen, was sie lernen, wann sie es lernen und welche Arten von Repräsentationen gut außerhalb der Verteilung generalisieren. Um dem zu begegnen, führen wir einen neuartigen Ansatz zur Interpretierbarkeit ein, der die Abbildung, die ein Modell von Sätzen zu Repräsentationen lernt, als eine eigenständige Sprache betrachtet. Dabei stellen wir eine Reihe informationstheoretischer Maße vor, die quantifizieren, wie strukturiert die Repräsentationen eines Modells im Verhältnis zu seinem Input sind und wann während des Trainings diese Struktur entsteht. Unsere Maße sind schnell berechenbar, in der Linguistik verankert und können vorhersagen, welche Modelle basierend auf ihren Repräsentationen am besten generalisieren. Wir verwenden diese Maße, um zwei unterschiedliche Trainingsphasen eines Transformers zu beschreiben: eine anfängliche Phase des in-Verteilungs-Lernens, die den Aufgabenverlust verringert, und eine zweite Phase, in der die Repräsentationen robust gegenüber Rauschen werden. Die Generalisierungsleistung beginnt während dieser zweiten Phase zu steigen, was einen Zusammenhang zwischen Generalisierung und Robustheit gegenüber Rauschen herstellt. Schließlich untersuchen wir, wie die Modellgröße die Struktur des Repräsentationsraums beeinflusst und zeigen, dass größere Modelle ihre Repräsentationen letztlich stärker komprimieren als kleinere Modelle.
Building similarity graph...
Analyzing shared references across papers
Loading...
Henry Conklin
Kenny Smith
Building similarity graph...
Analyzing shared references across papers
Loading...
Conklin et al. (Tue,) untersuchten diese Fragestellung.
www.synapsesocial.com/papers/68e664c0b6db6435875f1bb5 — DOI: https://doi.org/10.48550/arxiv.2406.02449
Synapse has enriched 5 closely related papers on similar clinical questions. Consider them for comparative context: