Key points are not available for this paper at this time.
Hipotetizamos que vetores de estado oculto correspondentes a tokens de entrada individuais codificam informações suficientes para prever com precisão vários tokens à frente. Mais concretamente, neste artigo perguntamos: dado uma representação oculta (interna) de um único token na posição t de uma entrada, podemos antecipar de forma confiável os tokens que aparecerão nas posições ≥ t + 2? Para testar isso, medimos métodos de aproximação linear e intervenção causal no GPT-J-6B para avaliar o grau em que estados ocultos individuais na rede contêm sinal suficientemente rico para prever estados ocultos futuros e, finalmente, saídas de tokens. Constatamos que, em algumas camadas, podemos aproximar a saída do modelo com mais de 48% de precisão em relação à sua previsão dos tokens subsequentes por meio de um único estado oculto. Finalmente, apresentamos uma visualização "Lente do Futuro" que usa esses métodos para criar uma nova visão dos estados do transformador.
Building similarity graph...
Analyzing shared references across papers
Loading...
Koyena Pal
Jiuding Sun
Andrew C. Yuan
University of Massachusetts Amherst
Universidad del Noreste
Building similarity graph...
Analyzing shared references across papers
Loading...
Pal et al. (Sun,) estudaram esta questão.
www.synapsesocial.com/papers/6a086892ab15ea61dee8d2a5 — DOI: https://doi.org/10.18653/v1/2023.conll-1.37
Synapse has enriched 5 closely related papers on similar clinical questions. Consider them for comparative context: