March 24, 2024Open Access

大規模言語モデルを自動対話評価者としての有効性に関する包括的分析

Key Points

Key points are not available for this paper at this time.

Abstract

自動評価は対話システム研究の不可欠な側面です。従来の参照ベースの自然言語生成（NLG）指標は対話評価には一般的に適していないことが知られています。そのため、最近の研究では人間の評価とより整合する参照不要の独自のニューラル指標が提案されています。中でも大規模言語モデル（LLM）、特にChatGPTのような命令調整された変種は人間の評価者の有望な代替として示されています。しかし、LLMを自動対話評価に活用する既存の研究は、メタ評価用データセットの数、評価の形式、LLMのカバレッジなどの面で範囲が限定的です。したがって、これらのLLMがどの程度有効かは結論が出ていません。そこで本研究では、LLMを自動対話評価に適用する包括的な調査を行いました。具体的には、最近登場した30のLLMの複数次元評価能力を、ターンレベル及び対話レベルで、計12のメタ評価用データセットを用いて分析しました。加えて、ターン及び対話レベルでの様々な敵対的摂動への対応力（ロバスト性）を検証しました。最後に、モデルレベルおよび次元レベルのアンサンブルが評価性能に与える影響についても探りました。すべてのリソースはhttps://github.com/e0397123/comp-analysisで入手可能です。

Connected Papers

Building similarity graph...

Analyzing shared references across papers

Discussion

Authors

Chen Zhang

Luis Fernando D’Haro

Yiming Chen

Actions

Institutions

National University of Singapore

University of Electronic Science and Technology of China

Universidad Politécnica de Madrid

References and Citations

Connected Papers

Building similarity graph...

Analyzing shared references across papers

大規模言語モデルを自動対話評価者としての有効性に関する包括的分析

Key Points

Abstract

Citation Network

Connected Papers

Discussion

Authors

Actions

Institutions

References and Citations

Citation Network

Connected Papers

Discussion

Cite this study

Also consider