Neste trabalho, apresentamos HieraTok, um novo tokenizador baseado em Vision Transformer (ViT) multiescala que supera a limitação inerente de modelar representações em escala única. Isso é realizado por meio de dois projetos-chave: (1) downsampling multiescala aplicado ao mapa de tokens gerado pelo codificador do tokenizador, produzindo uma sequência de tokens multiescala, e (2) um mecanismo de atenção causal por escala que permite o fluxo progressivo de informações das características semânticas globais de baixa resolução para detalhes estruturais de alta resolução. Combinando esses projetos, HieraTok alcança melhorias significativas em tarefas de reconstrução e geração de imagens. Sob configurações idênticas, o tokenizador visual multiescala supera seu homólogo de escala única com uma melhoria de 27,2% no rFID (1,47 para 1,07). Quando integrado a frameworks de geração downstream, atinge uma taxa de convergência 1,38 vezes mais rápida e um aumento de 18,9% no gFID (16,4 para 13,3), o que pode ser atribuído ao espaço latente mais suave e uniformemente distribuído. Além disso, ao ampliar o treinamento do tokenizador, demonstramos seu potencial com um rFID de ponta de 0,45 e um gFID de 1,82 entre tokenizadores ViT. Até onde sabemos, somos os primeiros a introduzir tokenizador ViT multiescala na reconstrução e geração de imagens. Esperamos que nossos achados e projetos avancem os tokenizadores baseados em ViT em tarefas de geração visual.
Building similarity graph...
Analyzing shared references across papers
Loading...
Cong Chen
Ziyuan Huang
Cheng Zou
Building similarity graph...
Analyzing shared references across papers
Loading...
Chen et al. (Sun,) estudaram esta questão.
www.synapsesocial.com/papers/68f6379bb481a140a36cf4e8 — DOI: https://doi.org/10.48550/arxiv.2509.23736