Key points are not available for this paper at this time.
大規模言語モデル(LLM)がわずかなショットのチェーン・オブ・ソートプロンプトだけで複雑な推論をうまく行う驚くべき能力は、非常に大規模なモデル(1000億パラメータ以上)にのみ現れると考えられてきました。我々は、このような能力が実際にはGPT-3.5(175B)からT5変種(11B)へ蒸留可能であることを示します。我々は、モデルの能力を特定のターゲットタスクに特化させるモデル専門化を提案します。仮説は、大規模モデル(一般に1000億以上と見なされる)は強力なモデリング能力を持つが、多種多様なタスクに分散しているのに対し、小規模モデル(一般に100億未満と見なされる)はモデル容量が限られるが、その容量を特定のターゲットタスクに集中させれば、パフォーマンスが著しく向上できるというものです。我々は、非常に典型的な顕在能力であるマルチステップ数学推論をテストベッドとして使用しました。我々はモデル能力の重要な二つの側面を示します:(1) 言語モデルの多次元能力間には非常に複雑なバランス/トレードオフが存在する。(2) 汎用能力の低下という代償を払うことで、10億未満のモデルのスケーリング曲線を専門化されたマルチステップ数学推論能力へ明確に引き上げることができる。我々はさらに、チューニングデータ形式、開始モデルチェックポイント、新しいモデル選択方法を含むより良い一般化のための重要な設計選択について総合的に議論します。我々の実践と発見が、LLMによって設定された新たな研究パラダイムにおける専門化された小規模モデルへの重要な試みとして役立つことを期待します。
Building similarity graph...
Analyzing shared references across papers
Loading...
Yao Fu
Hao Peng
Litu Ou
Building similarity graph...
Analyzing shared references across papers
Loading...
Fuら(Mon,)はこの問題を研究しました。
www.synapsesocial.com/papers/6a08cc625686deba6901f192 — DOI: https://doi.org/10.48550/arxiv.2301.12726