Key points are not available for this paper at this time.
自然言語生成(NLG)システムによって生成されるテキストの品質を自動的に測定することは困難です。BLEUやROUGEのような従来のリファレンスベースの指標は、特に創造性や多様性を必要とするタスクにおいて、人間の判断との相関が比較的低いことが示されています。最近の研究では、大規模言語モデル(LLM)をNLG評価のリファレンスフリーの指標として使用することが提案されており、これは人間のリファレンスが存在しない新しいタスクにも適用可能という利点があります。しかしながら、これらのLLMベースの評価者は、中規模ニューラル評価者よりも人間との対応率が低いままです。本研究では、連鎖思考(CoT)とフォームフィリングのパラダイムを用いた大規模言語モデルを活用する枠組みであるG-Evalを提案し、NLG出力の品質を評価します。テキスト要約と対話生成の2つの生成タスクで実験を行いました。GPT-4をバックボーンモデルとしたG-Evalは、要約タスクにおいて人間とのスピアマン相関係数0.514を達成し、従来のすべての手法を大幅に上回る性能を示しました。また、LLMベース評価者の挙動についての分析を提案し、LLM生成テキストに偏る可能性というLLMベース評価者の潜在的な懸念点を強調します。
Building similarity graph...
Analyzing shared references across papers
Loading...
Yang Liu
Dan Iter
Xu Yi‐chong
Microsoft (United States)
Building similarity graph...
Analyzing shared references across papers
Loading...
Liuら(Sun,)はこの問題を研究しました。
www.synapsesocial.com/papers/69d730cf0420a49c9848f365 — DOI: https://doi.org/10.18653/v1/2023.emnlp-main.153