December 8, 2021Open Access

通过从数万亿标记中检索来改进语言模型

Key Points

Key points are not available for this paper at this time.

Abstract

我们通过基于与前序标记的局部相似性从大型语料库中检索文档片段，增强自回归语言模型的条件能力。利用一个包含2万亿标记的数据库，我们的检索增强变换器（RETRO）在Pile数据集上的表现可与GPT-3和Jurassic-1相媲美，尽管参数量减少了25倍。经过微调后，RETRO的性能也适用于如下游的知识密集型任务，如问答。RETRO结合了一个冻结的Bert检索器、可微编码器和块状交叉注意机制，以基于比训练期间通常消耗的数据多一个数量级的数据来预测标记。我们通常从零开始训练RETRO，但也能快速地在预训练变换器上进行RETROfit检索，仍能取得良好表现。我们的工作为通过前所未有规模的显式记忆来改进语言模型开辟了新途径。

Connected Papers

Building similarity graph...

Analyzing shared references across papers

Discussion

Authors

Sebastian Borgeaud

Arthur Mensch

Jordan Hoffmann

Actions

References and Citations

Connected Papers

Building similarity graph...

Analyzing shared references across papers

通过从数万亿标记中检索来改进语言模型

Key Points

Abstract

Citation Network

Connected Papers

Discussion

Authors

Actions

References and Citations

Citation Network

Connected Papers

Discussion

Cite this study