大規模言語モデルの自動対話評価者としての有効性に関する包括的分析 | Synapse