Key points are not available for this paper at this time.
大規模言語モデル(LLM)は一貫したテキスト生成に優れていますが、コンテキスト認識に課題があり、提供された情報に忠実に従うことが求められるタスクにおいて誤りを生じがちです。私たちは、プロンプトの高速記憶化を通じて指示ファインチューニングされたLLMのコンテキスト認識を向上させる新しい手法FastMemを提案します。FastMemは、推論前にプロンプトの尤度を最大化するために、最後のFeed-Forward Network(FFN)モジュールのみを微調整します。このターゲットを絞ったアプローチにより過学習を避けつつ効率的な最適化を実現し、モデルのコンテキスト理解と正確な追従能力を大幅に高めます。我々の実験では、読解力、テキスト要約、出力構造の順守において顕著な改善が示されました。例えば、FastMemはLlama 3-8B-InstのNQ-SWAPデータセットでの正確率を59.1%から71.6%に改善し、Qwen 1.5-4B-Chatの出力構造失敗率を34.9%から25.5%に低減しました。多岐にわたる実験結果は、FastMemが様々な応用においてLLMの信頼性と精度を強化する堅牢な解決策となる可能性を示しています。コードは以下で公開しています: https://github.com/IAAR-Shanghai/FastMem
Building similarity graph...
Analyzing shared references across papers
Loading...
Junyi Zhu
Shuochen Liu
Yu Yu
Building similarity graph...
Analyzing shared references across papers
Loading...
Zhuら(Sun,)はこの問題を研究しました。
www.synapsesocial.com/papers/68e63ae4b6db6435875cc783 — DOI: https://doi.org/10.48550/arxiv.2406.16069