May 29, 2024Open Access

为什么更大的语言模型在上下文学习中表现不同？

Key Points

Key points are not available for this paper at this time.

Abstract

大型语言模型（LLM）已成为人工智能的强大工具，其关键能力是上下文学习（ICL），即它们可以基于一系列简短的任务示例，在不调整模型参数的情况下，出色地完成未见过的任务。一个近期有趣且神秘的观察是，不同规模的模型可能表现出不同的ICL行为：较大的模型往往对测试上下文中的噪音更为敏感。本文从理论上研究这一观察，旨在加深对LLM和ICL的理解。我们分析了两个典型设置：（1）采用单层单头线性变换器进行线性回归；（2）采用两层多头注意力变换器进行奇偶分类（非线性数据和非线性模型）。在这两种设置中，我们给出了封闭形式的最优解，发现较小的模型更注重重要的隐藏特征，而较大的模型覆盖更多的隐藏特征；因此，较小的模型对噪音更具鲁棒性，而较大的模型更容易被干扰，导致不同的ICL行为。这一发现揭示了变换器关注的焦点及其对ICL的影响。在大型基础模型和聊天模型上的初步实验结果为我们的分析提供了积极支持。

Connected Papers

Building similarity graph...

Analyzing shared references across papers

Discussion

Authors

Zhenmei Shi

Junyi Wei

Zhuoyan Xu

Actions

References and Citations

Connected Papers

Building similarity graph...

Analyzing shared references across papers

为什么更大的语言模型在上下文学习中表现不同？

Key Points

Abstract

Citation Network

Connected Papers

Discussion

Authors

Actions

References and Citations

Citation Network

Connected Papers

Discussion

Cite this study

Also consider