大規模言語モデルの一貫性および推論能力の評価 | Synapse