What type of study is this?

This is a Quantitative Study study.

October 20, 2025Open Access

HieraTok: Tokenizador Visual Multiescala Melhora a Reconstrução e Geração de Imagens

Key Points

HieraTok demonstra uma melhoria de 27,2% nas métricas de reconstrução de imagem em comparação com modelos de escala única.
O modelo alcança uma taxa de convergência 1,38× mais rápida em tarefas de geração de imagem, aumentando a eficiência geral.
Com avanços na escalabilidade do treinamento, HieraTok estabelece novas métricas de estado da arte para vision transformers.
Esses resultados indicam potencial significativo para abordagens multiescala em aplicações de geração visual.

Abstract

Neste trabalho, apresentamos HieraTok, um novo tokenizador baseado em Vision Transformer (ViT) multiescala que supera a limitação inerente de modelar representações em escala única. Isso é realizado por meio de dois projetos-chave: (1) downsampling multiescala aplicado ao mapa de tokens gerado pelo codificador do tokenizador, produzindo uma sequência de tokens multiescala, e (2) um mecanismo de atenção causal por escala que permite o fluxo progressivo de informações das características semânticas globais de baixa resolução para detalhes estruturais de alta resolução. Combinando esses projetos, HieraTok alcança melhorias significativas em tarefas de reconstrução e geração de imagens. Sob configurações idênticas, o tokenizador visual multiescala supera seu homólogo de escala única com uma melhoria de 27,2% no rFID (1,47 para 1,07). Quando integrado a frameworks de geração downstream, atinge uma taxa de convergência 1,38 vezes mais rápida e um aumento de 18,9% no gFID (16,4 para 13,3), o que pode ser atribuído ao espaço latente mais suave e uniformemente distribuído. Além disso, ao ampliar o treinamento do tokenizador, demonstramos seu potencial com um rFID de ponta de 0,45 e um gFID de 1,82 entre tokenizadores ViT. Até onde sabemos, somos os primeiros a introduzir tokenizador ViT multiescala na reconstrução e geração de imagens. Esperamos que nossos achados e projetos avancem os tokenizadores baseados em ViT em tarefas de geração visual.

Connected Papers

Building similarity graph...

Analyzing shared references across papers

Discussion

Authors

Cong Chen

Ziyuan Huang

Cheng Zou

Actions

References and Citations

Connected Papers

Building similarity graph...

Analyzing shared references across papers

HieraTok: Tokenizador Visual Multiescala Melhora a Reconstrução e Geração de Imagens

Key Points

Abstract

Citation Network

Connected Papers

Discussion

Authors

Actions

References and Citations

Citation Network

Connected Papers

Discussion

Cite this study