May 22, 2024Open Access

RNNとしてのAttention

Key Points

Key points are not available for this paper at this time.

Abstract

Transformerの登場はシーケンスモデリングにおける大きな突破口となり、GPUの並列処理を活用できる高性能なアーキテクチャを提供しました。しかし、Transformerは推論時に計算コストが高く、特にリソースの限られた環境（例えば、モバイルや組み込みデバイス）での応用が制限されます。これに対処するために、我々は(1)まずAttentionを、その多対一のRNN出力を効率的に計算可能な特殊なリカレントニューラルネットワーク（RNN）として捉えられることを示します。次に(2)Transformerなどの人気のあるAttentionベースのモデルをRNNの変種として捉えられることを示します。しかし、従来のRNN（例: LSTM）とは異なり、これらのモデルは新しいトークンで効率的に更新することができず、これはシーケンスモデリングで重要な特性です。これに対処して(3)並列接頭辞走査アルゴリズムに基づくAttentionの多対多RNN出力の新しい効率的な計算方法を提案します。さらに、この新しいAttentionの定式化を基にして(4)AarenというAttentionベースのモジュールを導入します。Aarenは(i)Transformerのように並列でトレーニング可能であるだけでなく、(ii)従来のRNNのように推論時に一定のメモリで新しいトークンに効率的に更新可能です。実証的に、Aarenは強化学習、イベント予測、時系列分類、時系列予測という四つの人気のある順序問題設定にまたがる38のデータセットでTransformerと同等の性能を示しながら、より時間的・メモリ効率に優れていることを示します。

Connected Papers

Building similarity graph...

Analyzing shared references across papers

Discussion

Authors

Leo Feng

Frederick Tung

Hossein Hajimirsadeghi

Actions

References and Citations

Connected Papers

Building similarity graph...

Analyzing shared references across papers

RNNとしてのAttention

Key Points

Abstract

Citation Network

Connected Papers

Discussion

Authors

Actions

References and Citations

Citation Network

Connected Papers

Discussion

Cite this study

Also consider