What question did this study set out to answer?

A pesquisa visa desenvolver um marco para aprimorar a interpretabilidade e a segurança de modelos transformer.

March 22, 2026Open Access

Dinâmica de Operadores em Fluxos Residuais de Transformers: Um Marco Unificado para Interpretabilidade, Detecção Adversarial, Controle Causal e Identificação Topológica de Modelos

Key Points

A pesquisa visa desenvolver um marco para aprimorar a interpretabilidade e a segurança de modelos transformer.
Desenvolve um marco unificado baseado em operadores de fluxo residual.
Valida contribuições empíricas em múltiplos modelos.
Explora diferenças intercamadas para analisar contribuições das camadas.
Estabelece uma compreensão geométrica da dinâmica dos operadores em transformers.
Demonstra melhorias na interpretabilidade e na detecção adversarial.
Abrange uma ampla faixa de parâmetros em famílias arquitetônicas.

Abstract

Apresentamos um marco unificado para a interpretabilidade e segurança de transformers fundamentado na geometria dos operadores de fluxo residual – diferenças intercamadas Δl = hl+1 − hl que capturam diretamente o que cada camada contribui para a passagem direta. Fazemos cinco contribuições empíricas validadas em quatro modelos abrangendo três famílias arquitetônicas e uma faixa de parâmetros de 80× (GPT-2 117M até Qwen3.5-9B).

Connected Papers

Building similarity graph...

Analyzing shared references across papers

Discussion

Authors

Sanskar Pandey

Actions

References and Citations

Connected Papers

Building similarity graph...

Analyzing shared references across papers

Dinâmica de Operadores em Fluxos Residuais de Transformers: Um Marco Unificado para Interpretabilidade, Detecção Adversarial, Controle Causal e Identificação Topológica de Modelos

Key Points

Abstract

Citation Network

Connected Papers

Discussion

Authors

Actions

References and Citations

Citation Network

Connected Papers

Discussion

Cite this study

Also consider