拡散報酬逆境模倣学習 | Synapse