Key points are not available for this paper at this time.
我们通过基于与前序标记的局部相似性从大型语料库中检索文档片段,增强自回归语言模型的条件能力。利用一个包含2万亿标记的数据库,我们的检索增强变换器(RETRO)在Pile数据集上的表现可与GPT-3和Jurassic-1相媲美,尽管参数量减少了25倍。经过微调后,RETRO的性能也适用于如下游的知识密集型任务,如问答。RETRO结合了一个冻结的Bert检索器、可微编码器和块状交叉注意机制,以基于比训练期间通常消耗的数据多一个数量级的数据来预测标记。我们通常从零开始训练RETRO,但也能快速地在预训练变换器上进行RETROfit检索,仍能取得良好表现。我们的工作为通过前所未有规模的显式记忆来改进语言模型开辟了新途径。
Building similarity graph...
Analyzing shared references across papers
Loading...
Sebastian Borgeaud
Arthur Mensch
Jordan Hoffmann
Building similarity graph...
Analyzing shared references across papers
Loading...
Borgeaud等人(周三,)研究了这个问题。
www.synapsesocial.com/papers/69dcc873a5c75be4cfe54479 — DOI: https://doi.org/10.48550/arxiv.2112.04426