February 13, 2024Open Access

上位層にはより多くのLoRAエキスパートが必要

Key Points

Key points are not available for this paper at this time.

Abstract

パラメータ効率の良いチューニング（PEFT）技術である低ランク適応（LoRA）は、大規模言語モデルの訓練効率を向上させますが、モデル性能への影響は限定的です。最近の研究では、LoRAとMixture-of-Experts（MoE）を統合し、PEFT手法の性能向上を目指しています。期待される結果が得られているものの、MoEによるLoRAの効率改善はまだ初期段階にあります。近年の研究では、MoEアーキテクチャ内のエキスパートはそれぞれ異なる強みを持つ一方で、冗長性も示しています。このことはパラメータ効率の良いMoEにも当てはまるのでしょうか？本論文では、Transformerベースのモデルに対して各層で異なる数のLoRAエキスパートを柔軟に割り当て可能な新しいパラメータ効率MoE手法、MoE-LoRA with Layer-wise Expert Allocation（MoLA）を提案します。様々な層ごとのエキスパート構成を持つ複数のアーキテクチャを検討しました。6つの有名なNLPおよび常識的質問応答ベンチマークでの実験により、MoLAはすべてのベースラインと同等またはそれ以上の性能を達成することが示されました。より多くのLoRAエキスパートを上位層に割り当てることで、合計一定数のエキスパートを持つモデルの効果がさらに高まることがわかりました。はるかに少ないパラメータ数で、この割り当て戦略は各層に同数のエキスパートを配置する設定を上回ります。本手法は様々な用途に対するパラメータ効率の良いプラグアンドプレイ型チューニング手法として広く利用可能です。コードは https://github.com/GCYZSL/MoLA で公開されています。

Connected Papers

Building similarity graph...

Analyzing shared references across papers

Discussion

Authors

Chongyang Gao

Kezhen Chen

Jinmeng Rao

Actions

References and Citations

Connected Papers

Building similarity graph...

Analyzing shared references across papers

上位層にはより多くのLoRAエキスパートが必要

Key Points

Abstract

Citation Network

Connected Papers

Discussion

Authors

Actions

References and Citations

Citation Network

Connected Papers

Discussion

Cite this study

Also consider