April 8, 2024Open Access

MLPは優れたトランスフォーマー学習者になり得る

Key Points

Key points are not available for this paper at this time.

Abstract

自己注意メカニズムはトランスフォーマーの要ですが、計算負荷の点でしばしば批判されます。これまでのトークン剪定の研究は計算の冗長性の観点から手法を動機付けていますが、依然として全ネットワークを読み込む必要があり、同じメモリコストを要求します。本論文では、エントロピーの考慮に基づき、非必須の注意層を選択的に除去することでビジョントランスフォーマーを簡素化し、計算負荷を低減する新たな戦略を提案します。底部ブロックの注意層に関しては、それに続くMLP層、すなわち2つのフィードフォワード層が同等のエントロピー量を引き出せることを特定しました。一方で、伴うMLPは、上部ブロックのMLPと比較して特徴のエントロピーが小さいため、活用されていません。したがって、情報量の少ない注意層をそれに続くMLP層に同一マッピングに退化させて統合し、特定のトランスフォーマーブロックでMLPのみを生成する方法を提案します。ImageNet-1kでの実験結果は、提案手法がDeiT-Bの注意層の40％を除去でき、スループットとメモリ制約を改善しつつ性能を損なわないことを示しています。コードはhttps://github.com/sihaoevery/lambdavit にて公開されています。

Connected Papers

Building similarity graph...

Analyzing shared references across papers

Discussion

Authors

Sihao Lin

Pumeng Lyu

Dongrui Liu

Actions

References and Citations

Connected Papers

Building similarity graph...

Analyzing shared references across papers

MLPは優れたトランスフォーマー学習者になり得る

Key Points

Abstract

Citation Network

Connected Papers

Discussion

Authors

Actions

References and Citations

Citation Network

Connected Papers

Discussion

Cite this study

Also consider