Key points are not available for this paper at this time.
大規模言語モデルは、数ショット学習を用いて多様な自然言語タスクで著しい性能を発揮することが示されており、特定の応用にモデルを適応させるためのタスク固有の訓練例数を劇的に減少させます。数ショット学習に対するスケールの影響をさらに理解するために、我々は5400億パラメータの密に活性化されたTransformer言語モデル、Pathways Language Model(PaLM)を訓練しました。PaLMはPathwaysという新しいMLシステムを用いて、6144個のTPU v4チップで訓練されており、これにより複数のTPU Pods間で非常に効率的な訓練が可能になっています。我々はスケーリングの利益が継続的に得られることを示し、何百もの言語理解および生成ベンチマークで最先端の数ショット学習結果を達成しました。いくつかのタスクでは、PaLM 540Bが画期的な性能を示し、多段階推論タスク群で微調整された最先端モデルを凌駕し、最近公開されたBIG-benchベンチマークでも平均的な人間の性能を上回りました。多くのBIG-benchタスクでモデルのスケールに応じて性能が不連続に向上し、最大モデルへスケールアップした際に急激に増加しました。PaLMは多言語タスクおよびソースコード生成においても強力な能力を持ち、多様なベンチマークでその性能を実証しています。さらに、バイアスと毒性に関する包括的な分析を提供し、モデルのスケールに関して訓練データの記憶の程度も調査しました。最後に、大規模言語モデルに関する倫理的考慮事項を論じ、潜在的な緩和策について議論します。
Building similarity graph...
Analyzing shared references across papers
Loading...
Aakanksha Chowdhery
Sharan Narang
Jacob Devlin
Building similarity graph...
Analyzing shared references across papers
Loading...
Chowdheryら(火曜日)はこの問題を研究しました。
www.synapsesocial.com/papers/69dbc64fc9a120f055a3c845 — DOI: https://doi.org/10.48550/arxiv.2204.02311