デモンストレーション補強報酬、方策、世界モデル学習によるマルチステージ操作 | Synapse