ロボット操作における長期的な課題は、密な報酬関数の設計の難しさや広範な状態・行動空間の効果的な探索の困難さから、強化学習(RL)において大きな課題となっています。しかし、密な報酬が不足しているにもかかわらず、これらの課題はしばしばマルチステージ構造を持ち、この構造を利用して全体目標を管理可能なサブゴールに分解できます。本研究では、視覚的入力からの効率的な学習のためにこの構造を活用するフレームワークDEMO3を提案します。具体的には、本手法はマルチステージ密報酬学習、二相性トレーニングスキーム、世界モデル学習を慎重に設計されたデモンストレーション強化RLフレームワークに組み込み、長期的課題における探索の課題を強力に軽減します。評価により、本手法は最新のアプローチと比べて平均40%、特に難しい課題では70%のデータ効率向上を示しました。これは、5つのデモンストレーションのみを用いた困難なヒューマノイド視覚制御タスクを含む4つのドメインにまたがる16の希薄報酬課題で検証しています。
Building similarity graph...
Analyzing shared references across papers
Loading...
Adrià López Escoriza
Nicklas Hansen
Siqi Tao
Building similarity graph...
Analyzing shared references across papers
Loading...
Escorizaら(Mon,)はこの問題を研究しました。
www.synapsesocial.com/papers/68ece2abd1bb2827d129747b — DOI: https://doi.org/10.48550/arxiv.2503.01837
Synapse has enriched 5 closely related papers on similar clinical questions. Consider them for comparative context: