July 4, 2024Open Access

オープンドメイン対話評価のためのLLMベンチマーキングについて

Key Points

Key points are not available for this paper at this time.

Abstract

大規模言語モデル（LLM）は様々な自然言語処理タスクで顕著な能力を示しています。特に自動オープンドメイン対話評価においては、LLMは評価フレームワークにシームレスに統合されており、人間評価とともにほとんどの評価の基盤を構成しています。しかし、既存の評価ベンチマークは古いデータセットに依存し、流暢さや関連性といった側面を評価していることが多く、最先端チャットボットモデルの能力と限界を十分に捉えていません。本論文は現行の評価ベンチマークを批判的に検討し、古い応答生成モデルや品質側面の使用では現代のチャットボット能力を正確に反映できないことを指摘します。最近のLLM生成データセット（SODA）を用いた小規模な注釈実験では、GPT-4のようなLLM評価者が現行LLMチャットボットが生成した対話の実際の欠陥を検出するのに苦戦することが明らかになりました。

Connected Papers

Building similarity graph...

Analyzing shared references across papers

Discussion

Authors

John Mendonça

Alon Lavie

Isabel Trancoso

Actions

References and Citations

Connected Papers

Building similarity graph...

Analyzing shared references across papers

オープンドメイン対話評価のためのLLMベンチマーキングについて

Key Points

Abstract

Citation Network

Connected Papers

Discussion

Authors

Actions

References and Citations

Citation Network

Connected Papers

Discussion

Cite this study

Also consider