May 25, 2024Open Access

拡散報酬敵対的模倣学習

Key Points

Key points are not available for this paper at this time.

Abstract

模倣学習は、環境からの報酬信号にアクセスせずに専門家のデモンストレーションを観察することで方策を学習することを目指します。生成的敵対的模倣学習（GAIL）は、模倣学習を敵対的学習として定式化し、専門家の行動を模倣する方策を学習するジェネレーターと、専門家のデモンストレーションとエージェントの軌跡を区別する識別器を用います。期待される結果にもかかわらず、GAILのトレーニングはしばしば脆弱で不安定です。生成モデルにおける拡散モデルの最近の優位性に着想を得て、本研究は拡散モデルをGAILに統合し、方策学習のためにより精密で滑らかな報酬をもたらすことを目指すDiffusion-Reward Adversarial Imitation Learning（DRAIL）を提案します。具体的には、拡散識別分類器を提案して強化された識別器を構築し、その分類器の出力に基づいた拡散報酬を方策学習に設計します。ナビゲーション、操作、移動における広範な実験を行い、従来の模倣学習手法と比較してDRAILの有効性を検証しました。さらに、追加の実験結果はDRAILの汎用性とデータ効率性を示しています。GAILとDRAILの学習済み報酬関数の可視化は、DRAILがより精密で滑らかな報酬を生成できることを示唆しています。

Connected Papers

Building similarity graph...

Analyzing shared references across papers

Discussion

Authors

Chun-Mao Lai

Hsiang-Chun Wang

Ping-Chun Hsieh

Actions

References and Citations

Connected Papers

Building similarity graph...

Analyzing shared references across papers

拡散報酬敵対的模倣学習

Key Points

Abstract

Citation Network

Connected Papers

Discussion

Authors

Actions

References and Citations

Citation Network

Connected Papers

Discussion

Cite this study

Also consider