Key points are not available for this paper at this time.
大規模言語モデル(LLM)は様々な自然言語処理タスクで顕著な能力を示しています。特に自動オープンドメイン対話評価においては、LLMは評価フレームワークにシームレスに統合されており、人間評価とともにほとんどの評価の基盤を構成しています。しかし、既存の評価ベンチマークは古いデータセットに依存し、流暢さや関連性といった側面を評価していることが多く、最先端チャットボットモデルの能力と限界を十分に捉えていません。本論文は現行の評価ベンチマークを批判的に検討し、古い応答生成モデルや品質側面の使用では現代のチャットボット能力を正確に反映できないことを指摘します。最近のLLM生成データセット(SODA)を用いた小規模な注釈実験では、GPT-4のようなLLM評価者が現行LLMチャットボットが生成した対話の実際の欠陥を検出するのに苦戦することが明らかになりました。
Building similarity graph...
Analyzing shared references across papers
Loading...
John Mendonça
Alon Lavie
Isabel Trancoso
Building similarity graph...
Analyzing shared references across papers
Loading...
Mendonçaら(Thu,)はこの問題を研究しました。
www.synapsesocial.com/papers/68e616ccb6db6435875a9979 — DOI: https://doi.org/10.48550/arxiv.2407.03841
Synapse has enriched 5 closely related papers on similar clinical questions. Consider them for comparative context: