強化学習(Q-learning)の効率的な学習法として,複数のエージェントが同時並列に試行しながら協調的にQテーブルを更新するアプローチが提案されている.本研究では,複数のエージェントがいくつかの異なる環境下で問題を解いている状態で,個々のエージェントがどの環境で問題を解いているか分からないとして,エージェントのクラスタリングとクラスターごとのQ-learningを同時分析することで,スイッチング強化学習モデルを提案する.クラスターごとの方策に基づく獲得利得をクラスタリング基準としてFuzzy c-Means(FCM)法に倣ったファジィメンバシップを算出し,メンバシップの重み付きでQ値の更新を行うことで,環境ごとのQテーブルを並列的に学習する.また,分割のファジィ度の決定論的アニーリングを導入することで,ロバストなモデル推定と獲得利得の最大化を合わせて実現する.
Building similarity graph...
Analyzing shared references across papers
Loading...
Katsuhiro Honda
Taimu Yaotome
Seiki Ubukata
Journal of Japan Society for Fuzzy Theory and Intelligent Informatics
Osaka Metropolitan University
Building similarity graph...
Analyzing shared references across papers
Loading...
Honda et al. (Sat,) studied this question.
www.synapsesocial.com/papers/69a76115c6e9836116a2ea76 — DOI: https://doi.org/10.3156/jsoft.38.1_599