June 23, 2024Open Access

FastMem: プロンプトの高速記憶化により大規模言語モデルのコンテキスト認識を向上

Key Points

Key points are not available for this paper at this time.

Abstract

大規模言語モデル（LLM）は一貫したテキスト生成に優れていますが、コンテキスト認識に課題があり、提供された情報に忠実に従うことが求められるタスクにおいて誤りを生じがちです。私たちは、プロンプトの高速記憶化を通じて指示ファインチューニングされたLLMのコンテキスト認識を向上させる新しい手法FastMemを提案します。FastMemは、推論前にプロンプトの尤度を最大化するために、最後のFeed-Forward Network（FFN）モジュールのみを微調整します。このターゲットを絞ったアプローチにより過学習を避けつつ効率的な最適化を実現し、モデルのコンテキスト理解と正確な追従能力を大幅に高めます。我々の実験では、読解力、テキスト要約、出力構造の順守において顕著な改善が示されました。例えば、FastMemはLlama 3-8B-InstのNQ-SWAPデータセットでの正確率を59.1%から71.6%に改善し、Qwen 1.5-4B-Chatの出力構造失敗率を34.9%から25.5%に低減しました。多岐にわたる実験結果は、FastMemが様々な応用においてLLMの信頼性と精度を強化する堅牢な解決策となる可能性を示しています。コードは以下で公開しています: https://github.com/IAAR-Shanghai/FastMem

Connected Papers

Building similarity graph...

Analyzing shared references across papers

Discussion

Authors

Junyi Zhu

Shuochen Liu

Yu Yu

Actions

References and Citations

Connected Papers

Building similarity graph...

Analyzing shared references across papers

FastMem: プロンプトの高速記憶化により大規模言語モデルのコンテキスト認識を向上

Key Points

Abstract

Citation Network

Connected Papers

Discussion

Authors

Actions

References and Citations

Citation Network

Connected Papers

Discussion

Cite this study