Key points are not available for this paper at this time.
検索拡張言語モデル(LM)は近年多くの注目を集めています。しかし通常、検索器はLMのネイティブな構成要素として共同で訓練されるのではなく、既に事前トレーニングされたLMに後付けで追加されるため、LMと検索器がお互いに適応する能力が制限されます。本研究では、検索拡張LMを初めから共同で訓練するためのアーキテクチャと訓練手順であるRetrieval-Pretrained Transformer(RPT)を提案し、長文テキストのモデリングタスクに適用します。長文の最近生成された文節に対し、LMはクエリ表現を計算し、それを用いて文書内のかなり前方、場合によっては数万トークン前の文節を検索します。検索された文節の情報はLM表現に融合され、次の目標文節の予測に用いられます。検索器の構成要素は意味的目的関数で訓練され、その目標は参照LMに基づいて次の文節の確率を高める文節を検索することです。我々は、書籍、コード、数学的文章にわたる4つの長距離言語モデリングタスクでRPTを評価し、強力なベースラインと比較して検索品質およびそれに続くパープレキシティが一様に改善されることを示しました。
Building similarity graph...
Analyzing shared references across papers
Loading...
Ohad Rubin
Jonathan Berant
Building similarity graph...
Analyzing shared references across papers
Loading...
Rubinら(Fri,)はこの問題を研究しました。
www.synapsesocial.com/papers/6a08b5e4ad370a6b44de4980 — DOI: https://doi.org/10.48550/arxiv.2306.13421