Nous étudions les modèles de langue transformeurs, en analysant les têtes d'attention dont les schémas d'attention sont dispersés, et dont les scores d'attention dépendent faiblement du contenu. Nous soutenons que les dénominateurs softmax de ces têtes sont stables lorsque la distribution sous-jacente des jetons est fixée. En échantillonnant les dénominateurs softmax à partir d'un "texte de calibration", nous pouvons combiner les sorties de plusieurs de ces têtes stables dans la première couche de GPT2-Small, en approximant leur sortie combinée par un résumé linéaire du texte environnant. Cette approximation permet une procédure où, à partir des poids seuls - et d’un seul texte de calibration - nous pouvons découvrir des centaines de neurones de la première couche qui répondent aux propriétés contextuelles de haut niveau du texte environnant, y compris des neurones qui ne s'activaient pas sur le texte de calibration.
Building similarity graph...
Analyzing shared references across papers
Loading...
Alex Gibson
Building similarity graph...
Analyzing shared references across papers
Loading...
Alex Gibson (Mercredi,) a étudié cette question.
www.synapsesocial.com/papers/68e861b07ef2f04ca37e4b8a — DOI: https://doi.org/10.48550/arxiv.2510.03315