Key points are not available for this paper at this time.
大型语言模型(LLM)已成为人工智能的强大工具,其关键能力是上下文学习(ICL),即它们可以基于一系列简短的任务示例,在不调整模型参数的情况下,出色地完成未见过的任务。一个近期有趣且神秘的观察是,不同规模的模型可能表现出不同的ICL行为:较大的模型往往对测试上下文中的噪音更为敏感。本文从理论上研究这一观察,旨在加深对LLM和ICL的理解。我们分析了两个典型设置:(1)采用单层单头线性变换器进行线性回归;(2)采用两层多头注意力变换器进行奇偶分类(非线性数据和非线性模型)。在这两种设置中,我们给出了封闭形式的最优解,发现较小的模型更注重重要的隐藏特征,而较大的模型覆盖更多的隐藏特征;因此,较小的模型对噪音更具鲁棒性,而较大的模型更容易被干扰,导致不同的ICL行为。这一发现揭示了变换器关注的焦点及其对ICL的影响。在大型基础模型和聊天模型上的初步实验结果为我们的分析提供了积极支持。
Building similarity graph...
Analyzing shared references across papers
Loading...
Zhenmei Shi
Junyi Wei
Zhuoyan Xu
Building similarity graph...
Analyzing shared references across papers
Loading...
Shi等人(Wed,)研究了这个问题。
www.synapsesocial.com/papers/68e67e28b6db643587608195 — DOI: https://doi.org/10.48550/arxiv.2405.19592
Synapse has enriched 5 closely related papers on similar clinical questions. Consider them for comparative context: