Key points are not available for this paper at this time.
我々は、言語モデルが質問に対して真実の回答を生成しているかどうかを測定するベンチマークを提案する。このベンチマークは、健康、法律、金融、政治を含む38のカテゴリーにまたがる817の質問で構成されている。誤った信念や誤解により一部の人間が誤答するような質問を作成した。良い成績を収めるには、モデルは人間のテキストを模倣して学習した誤答を生成しないことが求められる。GPT-3、GPT-Neo/J、GPT-2、およびT5ベースのモデルをテストした。最高のモデルでさえ58%の質問で真実の回答を示し、人間のパフォーマンスは94%であった。モデルは多数の誤答を生成し、これらは一般的な誤解を模倣しているため、人間を欺く可能性がある。大規模モデルほど一般に真実性が低い傾向にあった。これはモデルサイズで性能が向上する他のNLPタスクとは対照的である。ただし、誤答が訓練分布から学習される場合、この結果は予想される。我々は、単にモデルの規模を大きくするよりも、ウェブ上のテキスト模倣以外の訓練目的でファインチューニングを行う方が真実性の改善に有望だと示唆する。
Building similarity graph...
Analyzing shared references across papers
Loading...
Stephanie Lin
Jacob Hilton
Owain Evans
University of Oxford
Building similarity graph...
Analyzing shared references across papers
Loading...
Linら(Sat,)がこの問題を研究した。
www.synapsesocial.com/papers/6994f2fe03acb0fc22601bc5 — DOI: https://doi.org/10.18653/v1/2022.acl-long.229
Synapse has enriched 5 closely related papers on similar clinical questions. Consider them for comparative context: