January 1, 2023Open Access

G-Eval: より良い人間との整合性を持つGpt-4を用いたNLG評価

Key Points

Key points are not available for this paper at this time.

Abstract

自然言語生成（NLG）システムによって生成されるテキストの品質を自動的に測定することは困難です。BLEUやROUGEのような従来のリファレンスベースの指標は、特に創造性や多様性を必要とするタスクにおいて、人間の判断との相関が比較的低いことが示されています。最近の研究では、大規模言語モデル（LLM）をNLG評価のリファレンスフリーの指標として使用することが提案されており、これは人間のリファレンスが存在しない新しいタスクにも適用可能という利点があります。しかしながら、これらのLLMベースの評価者は、中規模ニューラル評価者よりも人間との対応率が低いままです。本研究では、連鎖思考（CoT）とフォームフィリングのパラダイムを用いた大規模言語モデルを活用する枠組みであるG-Evalを提案し、NLG出力の品質を評価します。テキスト要約と対話生成の2つの生成タスクで実験を行いました。GPT-4をバックボーンモデルとしたG-Evalは、要約タスクにおいて人間とのスピアマン相関係数0.514を達成し、従来のすべての手法を大幅に上回る性能を示しました。また、LLMベース評価者の挙動についての分析を提案し、LLM生成テキストに偏る可能性というLLMベース評価者の潜在的な懸念点を強調します。

Connected Papers

Building similarity graph...

Analyzing shared references across papers

Discussion

Authors

Yang Liu

Dan Iter

Xu Yi‐chong

Actions

Institutions

Microsoft (United States)

References and Citations

Connected Papers

Building similarity graph...

Analyzing shared references across papers

G-Eval: より良い人間との整合性を持つGpt-4を用いたNLG評価

Key Points

Abstract

Citation Network

Connected Papers

Discussion

Authors

Actions

Institutions

References and Citations

Citation Network

Connected Papers

Discussion

Cite this study