SciEx:人間専門家による評価と自動評価を用いた科学試験における大規模言語モデルのベンチマーク | Synapse