Key points are not available for this paper at this time.
自動評価は対話システム研究の不可欠な側面です。従来の参照ベースの自然言語生成(NLG)指標は対話評価には一般的に適していないことが知られています。そのため、最近の研究では人間の評価とより整合する参照不要の独自のニューラル指標が提案されています。中でも大規模言語モデル(LLM)、特にChatGPTのような命令調整された変種は人間の評価者の有望な代替として示されています。しかし、LLMを自動対話評価に活用する既存の研究は、メタ評価用データセットの数、評価の形式、LLMのカバレッジなどの面で範囲が限定的です。したがって、これらのLLMがどの程度有効かは結論が出ていません。そこで本研究では、LLMを自動対話評価に適用する包括的な調査を行いました。具体的には、最近登場した30のLLMの複数次元評価能力を、ターンレベル及び対話レベルで、計12のメタ評価用データセットを用いて分析しました。加えて、ターン及び対話レベルでの様々な敵対的摂動への対応力(ロバスト性)を検証しました。最後に、モデルレベルおよび次元レベルのアンサンブルが評価性能に与える影響についても探りました。すべてのリソースはhttps://github.com/e0397123/comp-analysisで入手可能です。
Building similarity graph...
Analyzing shared references across papers
Loading...
Chen Zhang
Luis Fernando D’Haro
Yiming Chen
National University of Singapore
University of Electronic Science and Technology of China
Universidad Politécnica de Madrid
Building similarity graph...
Analyzing shared references across papers
Loading...
Zhangら(Sun,)はこの問題を研究しました。
www.synapsesocial.com/papers/68e72954b6db6435876a2f72 — DOI: https://doi.org/10.1609/aaai.v38i17.29923
Synapse has enriched 5 closely related papers on similar clinical questions. Consider them for comparative context: