Key points are not available for this paper at this time.
模倣学習は、環境からの報酬信号にアクセスせずに専門家のデモンストレーションを観察することで方策を学習することを目指します。生成的敵対的模倣学習(GAIL)は、模倣学習を敵対的学習として定式化し、専門家の行動を模倣する方策を学習するジェネレーターと、専門家のデモンストレーションとエージェントの軌跡を区別する識別器を用います。期待される結果にもかかわらず、GAILのトレーニングはしばしば脆弱で不安定です。生成モデルにおける拡散モデルの最近の優位性に着想を得て、本研究は拡散モデルをGAILに統合し、方策学習のためにより精密で滑らかな報酬をもたらすことを目指すDiffusion-Reward Adversarial Imitation Learning(DRAIL)を提案します。具体的には、拡散識別分類器を提案して強化された識別器を構築し、その分類器の出力に基づいた拡散報酬を方策学習に設計します。ナビゲーション、操作、移動における広範な実験を行い、従来の模倣学習手法と比較してDRAILの有効性を検証しました。さらに、追加の実験結果はDRAILの汎用性とデータ効率性を示しています。GAILとDRAILの学習済み報酬関数の可視化は、DRAILがより精密で滑らかな報酬を生成できることを示唆しています。
Building similarity graph...
Analyzing shared references across papers
Loading...
Chun-Mao Lai
Hsiang-Chun Wang
Ping-Chun Hsieh
Building similarity graph...
Analyzing shared references across papers
Loading...
Laiら(Sat,)はこの問題を研究しました。
www.synapsesocial.com/papers/68e686d2b6db64358760fe4e — DOI: https://doi.org/10.48550/arxiv.2405.16194
Synapse has enriched 5 closely related papers on similar clinical questions. Consider them for comparative context: