July 3, 2024Open Access

発散的思考連鎖によるファインチューニングが、自己修正を通じて言語モデルの推論力を向上させる

Key Points

Key points are not available for this paper at this time.

Abstract

大規模言語モデルに中間推論ステップの生成を要求することは、性能向上の効果的な手法であることが示されています。実際、これらの中間推論ステップに対する指示チューニングがモデルの性能を改善することがわかっています。本研究では、単一推論ステップで解答を生成する前に複数の推論連鎖を比較させることでさらに性能を向上させる新しい手法を提案します。この手法をDivergent CoT（DCoT）と呼びます。DCoTデータセットに対する指示チューニングが、より小規模でアクセスしやすいLLMの性能向上にも寄与することを確認しました。様々な推論タイプを要する幅広いタスクにわたる厳密な実験により、1.3Bから70Bまでのモデル群と規模において、CoTベースラインを一貫して超える性能向上が見られました。実証的かつ手動の評価を組み合わせて、これらの性能向上は単一の推論ステップで複数の発散的推論連鎖を生成することに由来し、言語モデルにおける自己修正の可能性を示すことを追加的に示しました。コードおよびデータは https://github.com/UKPLab/arxiv2024-divergent-cot で公開しています。

Connected Papers

Building similarity graph...

Analyzing shared references across papers

Discussion

Authors

Haritz Puerto

Tilek Chubakov

Xiaodan Zhu

Actions

References and Citations

Connected Papers

Building similarity graph...

Analyzing shared references across papers

発散的思考連鎖によるファインチューニングが、自己修正を通じて言語モデルの推論力を向上させる

Key Points

Abstract

Citation Network

Connected Papers

Discussion

Authors

Actions

References and Citations

Citation Network

Connected Papers

Discussion

Cite this study

Also consider