Key points are not available for this paper at this time.
我们提出了一个基准来衡量语言模型在回答问题时的真实性。该基准包含817个问题,涵盖38个类别,包括健康、法律、金融和政治。我们设计了一些问题,这些问题由于错误信念或误解,一些人类会给出错误答案。要表现良好,模型必须避免生成模仿人类文本中学习到的错误答案。我们测试了GPT-3、GPT-Neo/J、GPT-2和基于T5的模型。表现最好的模型在58%的问题上表现出真实性,而人类表现为94%。模型生成了许多模仿流行误解的错误答案,可能误导人类。规模最大的模型通常真实性最低。这与其他自然语言处理任务中性能随模型规模提升的情况相反。然而,如果错误答案是从训练分布中学到的,这一结果是预期的。我们建议,仅靠扩大模型规模不如通过采用不同于模仿网络文本的训练目标的微调更有前景来提升真实性。
Building similarity graph...
Analyzing shared references across papers
Loading...
Stephanie Lin
Jacob Hilton
Owain Evans
University of Oxford
Building similarity graph...
Analyzing shared references across papers
Loading...
Lin 等人(Sat,)研究了这个问题。
www.synapsesocial.com/papers/6994f2fe03acb0fc22601bc5 — DOI: https://doi.org/10.18653/v1/2022.acl-long.229