正確性を超えて:大型言語モデルの推論行動の評価 — サーベイ | Synapse